Où Chatgpt peut-il aider R&D? Ma réponse: dans la piste papier.
En R&D, l’atout le plus précieux est ce que l’organisation sait déjà. Chaque cahier de laboratoire, rapport, présentation et ensemble de données représente un fragment de la mémoire institutionnelle: ce qui a été essayé, ce qui a fonctionné, ce qui a échoué et pourquoi. Contrairement à la plupart des dossiers commerciaux, ces connaissances ont une valeur durable. Il peut éclairer de nouvelles découvertes, soutenir les poursuites IP ou éviter de répéter les erreurs passées.
J’ai appris cette leçon de première main lors de mon tout premier projet à Dupont. C’était une collaboration ambitieuse avec le MIT à la pointe de la science des matériaux. Et pourtant, ce qui m’a fait sauter, c’est un rapport de l’entreprise de 80 ans qui a détaillé comment une étude remarquablement pertinente a été réalisée il y a près d’un siècle.
Déverrouiller cette valeur avec l’IA n’est pas seulement une question d’incitation intelligente – c’est une question d’ingénierie contextuelle. Cette discipline émergente s’est concentrée sur la conception de l’écosystème complet de l’information autour d’un modèle: ce qu’il voit, quand et sous quelle forme, permettant aux modèles comme Chatgpt d’effectuer des tâches réelles et spécifiques au domaine de manière fiable. En R&D, cela signifie Réaliser des décennies de connaissances techniques disponibles D’une manière que l’IA peut interpréter et utiliser.
Mais La connaissance historique de la R&D est notoirement diversifiée. Une partie vit dans des feuilles de calcul ou des bases de données; Beaucoup plus est verrouillé dans les rapports, les ponts de diapositives ou même les cahiers de papier. La terminologie évolue également rapidement – la fiche technique de sécurité (MSD) des matériaux n’est que la fiche technique de sécurité (SDS) maintenant. Pendant ce temps, le contexte crucial est souvent sans papiers, supposé ou perdu lorsque les membres de l’équipe avancent.
La R&D fonctionne également avec une tension unique –Les informations sensibles doivent être protégées Avec des contrôles d’accès stricts – et les connaissances pertinentes doivent être partagées entre les disciplines, les régions et les générations de travaux.
Ainsi, pour que l’IA offre des réponses significatives et dignes de confiance, la piste papier doit être conçue en contexte –indexé, lié et fait surface exactement comme le modèle en a besoin– Tous tandis que l’IP de l’organisation reste sécurisée. C’est l’essence de l’ingénierie contextuelle de l’IA pour la R&D: la conservation et l’emballage de la bonne tranche de mémoire institutionnelle pour chaque requête. La réalisation de cela nécessite plus que de brancher un modèle; Il exige une plate-forme sous-jacente construite sur quatre capacités de base:
Flexibilité et multimodalité
L’ingénierie contextuelle d’IA efficace commence par la capacité de capturer et d’organiser des données de R&D, qui sont intrinsèquement diverses – passant des fiches techniques structurées aux documents non structurés, des cahiers numérisés, des images, des vidéos, des spectres analytiques et plus encore. Ce n’est pas seulement le multiforme, mais aussi dynamique, spécifique au domaine et constamment évoluant à mesure que les matériaux, les méthodes et les technologies avancent.
Pour construire un contexte prêt pour la récupération pour l’IA, toutes ces informations doivent être stockées, quel que soit son format ou son origine. Au lieu d’une normalisation prématurée à l’avance, il est souvent plus efficace d’utiliser des systèmes qui peuvent ingérer des données dans son format natif et soutenir une harmonisation progressive au fil du temps. Cette approche permet une plus grande flexibilité, facilite l’intégration entre les silos et permet une adaptation continue sans perturber les flux de travail de R&D existants.
Le Progrès de la plate-forme MarkLogic illustre cette méthodologie avec une architecture multimodèle qui prend en charge les données structurées, non structurées et binaires côte à côte –activer les équipes de R&D Pour rassembler diverses informations dans un seul environnement prêt pour l’AI.
Couche sémantique et enrichissement des données progressives
Pour rendre diverses données de R&D significatives et exploitables, sans réviser les systèmes existants, les organisations peuvent appliquer une couche sémantique. Assis au-dessus du contenu brut, la couche sémantique aide les systèmes à interpréter non seulement le format d’information, mais sa signification. Il relie les concepts, normalise la terminologie et fournit des relations contextuelles qui permettent à l’IA de comprendre comment les éléments de données disparates se connectent.
Par exemple, il peut préciser que «EtOAC» et «acétate d’éthyle» se réfèrent à la même substance, ou qu’un catalyseur mentionné dans une étude est fonctionnellement lié à une voie de réaction décrite dans un autre. Ces connexions aident à restaurer le contexte crucial qui est souvent perdu ou pris pour acquis.
Le Plate-forme de sémaphore progressiste soutient cette approche en fournissant un cadre pour gérer les ontologies du domaine, l’alignement de la terminologie et l’enrichissement du contenu avec des métadonnées sémantiques. Il aide à transformer les données déconnectées en une machine lisible Graphique de connaissances pour la contextualisation de l’IA.
Contrôle robuste de sécurité et d’accès granulaire
La connaissance de la R&D n’est pas seulement précieuse – elle est très sensible, avec des implications pour la protection de la propriété intellectuelle, la conformité réglementaire et l’avantage concurrentiel. Une plate-forme de données doit appliquer des limites d’accès strictes alignées sur le principe du besoin de savoir.
De plus, une gestion efficace de l’accès nécessite un contrôle d’accès à grain fin au niveau des documents, des sections, des champs ou des métadonnées pour trouver un équilibre minutieux: protéger la propriété intellectuelle sensible et empêcher une exposition accidentelle, tout en permettant un large accès pour prendre en charge le partage et la réutilisation des données.
La plate-forme MarkLogic est construite en pensant à ces besoins. C’est Le modèle de sécurité prend en charge l’accès, la rédaction et les protections au niveau du compartimentBattle testé dans des environnements hautement réglementés et critiques. Cela permet aux organisations de déployer des solutions d’IA en toute confiance – tout en conduisant une innovation sûre et responsable.
Récupération des informations et réutilisation
Avec l’IA, l’objectif n’est pas seulement de trouver des données – il doit fournir une réponse fondée sur les travaux antérieurs. Pour soutenir une véritable enquête scientifique, la récupération doit aller bien au-delà de la correspondance des mots clés. Il doit comprendre l’intention de l’utilisateur, incorporer des antécédents scientifiques pertinents et déterminer quel type de contexte soutiendra le mieux une réponse significative.
La réalisation de ces exigences exige des capacités de requête multimodales flexibles. Parfois, une recherche en texte intégral est appropriée; D’autres appellent à des requêtes SQL, à un raisonnement sémantique ou à une recherche de similitude vectorielle. Dans de nombreux cas, une combinaison de toutes ces approches est nécessaire pour rassembler et assembler le bon contexte.
C’est là que la plate-forme MarkLogic excelle, avec sa recherche en texte intégral à la pointe de la technologie, son index relationnel et son graphique sémantique et requêtes de similitude vectorielle dans la même plate-forme. Avec la fonction API optiqueL’IA peut combiner ces types de requête, permettant des stratégies de récupération complexes et mixtes à partir d’une seule interface. Cette flexibilité est fondamentale des pipelines de récupération de construction dans des environnements de R&D réels.
Réflexions finales
Les organisations de R&D sont assises sur des décennies de connaissances inestimables, mais transformant ce trace papier en un partenaire d’IA productif nécessite une ingénierie contextuelle – la conception délibérée de systèmes qui transforment les informations scientifiques diverses, sensibles et complexes en contexte structuré et significatif que l’IA peut comprendre et utiliser. Au fur et à mesure que l’IA passe de l’expérimentation à la production, l’avenir de la R&D appartient à ceux qui ne posent pas seulement de meilleures questions, mais qui construisent les systèmes qui offrent un meilleur contexte.
Source link