Fermer

juin 6, 2025

Tirant l’extraction de l’IA et des données prêtes à l’emploi pour accélérer la R&D

Tirant l’extraction de l’IA et des données prêtes à l’emploi pour accélérer la R&D


A Q&R avec un panel d’experts de la Dow Chemical Company, hébergée par Progress

La R&D est une question de concurrence concurrentielle. L’IA générative est devenue un catalyseur de R&D, promettant de débloquer de nouveaux cas d’utilisation et opportunités. Nous avons récemment assemblé un panel d’experts de scientifiques chevronnés des données et de leaders de la recherche de l’information de la Dow Chemical Company pour discuter de la façon dont ils ont construit un centre de données sémantique avec la plate-forme de données de progrès pour saisir des années de connaissances en R&D, faciliter sa découverte dans toute l’organisation et la rendre pratiquée pour les années à venir.

Ce message est un résumé des informations présentées par le panel, qui a fait une plongée beaucoup plus profonde dans les sujets abordés. Le matériel de la session de questions-réponses a été édité pour la durée et la clarté. Si vous souhaitez regarder l’interview dans son intégralité, vous pouvez le voir ici .

Le panneau

De Dow Chemical. Dow est l’une des principales sociétés de science des matériaux au monde, avec des ventes de 43 milliards de dollars en 2024.

  • Simon Cook, PhD, gestionnaire de solutions / scientifiques senior
  • Alix Schmidt, scientifique des données senior, stratégie de déploiement du modèle R&D
  • John Talbert, boursier et architecte des systèmes

Du progrès: Drew Wanczowski, modérateur, ingénieur principal de la solution principale.

Comment la recherche sur l’information prend-elle en charge la R&D chez Dow et comment collaborez-vous entre les unités commerciales et les groupes de R&D pour naviguer dans les données et les exigences de sécurité complexes?

Alix: Nous agissons en tant que traducteurs aidant les scientifiques à capturer, stocker et transformer les connaissances et les données ainsi que pour les protéger. Il s’agit d’un domaine complexe qui nécessite de l’agilité car les choses de la recherche changent tout le temps. Nous devons concevoir nos systèmes de données, donc lorsque vous trouvez quelque chose de nouveau ou que vous travaillez avec quelque chose de nouveau, nous pouvons prendre ces données et être en mesure de les intégrer très rapidement dans notre écosystème.

John: Gardez à l’esprit que l’échelle de Dow et notre fonction R&D comprend des milliers de personnes qui se rendent au laboratoire, faisant des expériences, collectant des informations, documentant des informations, accès à des informations externes – tous les types de choses à innover et à servir nos clients et c’est donc une initiative assez à grande échelle. Dans le même temps, nous travaillons vers la transformation numérique pour vraiment atteindre ce prochain niveau de à quoi ressemble la R&D à l’avenir et comment rivaliser avec les nouvelles entreprises natives numériques?

Décrivez les données de R&D et en quoi elle est différente des données de fabrication typiques.

Alix: J’ai eu environ 12 ans d’expérience dans la fonction de R&D et cinq ans dans la fabrication. Quand je pense à la fabrication de données, je le considère comme les mégadonnées d’origine avant l’analyse Web. C’est très cohérent, le schéma reste le même, vous avez donc les mêmes colonnes, les mêmes balises et autres types d’informations dans votre base de données.

En revanche, le rôle de la R&D est toujours d’innover et de faire quelque chose de nouveau. Il y a toujours de nouvelles données que vous collectez, de nouveaux instruments que vous pourriez intégrer et des variables que vous pourriez changer que vous n’aviez jamais changé auparavant. Alors maintenant, vous avez une situation de métadonnées différente. Je pense que la grande différence est l’agilité et être capable de simplement gérer ces flux de données.

Quels sont les défis que vous voyez autour des silos de données et de la découverte de données lorsque vous avez toutes ces formes variables?

John: L’un des grands défis est probablement une cohérence entre les silos, car une partie de la nomenclature peut ne pas être cohérente d’un silo à l’autre. Je pense que les données de base sont également essentielles si vous essayez de rassembler les données à partir de plusieurs systèmes. Si vous ne capturez pas vos identificateurs de manière cohérente, il est très difficile de donner un sens à ces données au fil du temps. Il commence en fait dans l’enseignement aux gens qui génèrent des données pour comprendre l’importance de capturer autant que possible les métadonnées à la source.

Pouvez-vous développer votre approche fondamentale de gestion des données, en particulier autour de la capture, de la normalisation et de la découverte?

Simon: Si nous examinons la gestion des données fondamentales, ce n’est pas une plate-forme statique. Les systèmes de données évoluent constamment, donc ce que cela signifie vraiment pour tout type de gestion des données fondamentales, c’est que vous devez vous déplacer avec ces changements et certaines des normes externes les plus récentes. Nous devons changer l’état d’esprit de «Je dois choisir une norme et m’en tenir à cela» à «quelle que soit la norme que nous utilisons, nous pouvons changer et évoluer avec le temps comme nous le devons». Vous devez transformer les données en un formulaire que vous pouvez réellement utiliser. Une grande partie de notre travail dans cette plate-forme fondamentale consiste à le transformer en un format agnostique fournisseur en utilisant les meilleures normes externes qui existent et à s’assurer que nous pouvons les transformer à mesure qu’ils changent au fil du temps.

Pouvez-vous élaborer un peu sur votre approche et le rôle qu’un hub de données sémantique joue pour lier toutes ces données ensemble?

John: L’approche consiste essentiellement à rassembler les données et à les connecter afin que les gens puissent y accéder plus facilement. Au fur et à mesure que nous agrégeons les données, nous devons comprendre quel est le contexte de ces données: comment les unifier, si nous les unifions en fonction du cas d’utilisation, etc. Si vous prenez des données de différents systèmes et que vous les mettions simplement en un seul endroit, vous n’avez rien fait; Vous n’avez pas réussi à utiliser, vous venez de le déplacer vers un emplacement central. Si vous voulez pouvoir tirer le meilleur parti de ces données, la gestion des données de maîtrise est vraiment essentielle. Vous devez vous assurer que ces pièces sont en place dans le cadre de votre stratégie de données pour vous assurer que vous avez les identificateurs nécessaires lorsque vous réunissez les données à partir de plusieurs emplacements.

Comment rendre les données pratiquées par les données plutôt qu’avenir à l’épreuve?

Simon: Je ne pense pas qu’il y ait une preuve future parce que nous ne savons pas ce que l’avenir va apporter, en dehors de nos données va devenir plus complexe. Nous devons vraiment organiser nos données de la meilleure façon possible avec nos outils actuels. Mais chaque fois que nous le faisons, nous devons nous assurer que nos données sont organisées afin que nous puissions les transformer en tout ce qui arrive. À l’avenir, lorsque vous améliorez les informations existantes avec plus de données, assurez-vous que les structures et les concepts que vous commencez à construire sont extensibles. Future Ready est un meilleur terme, car cela signifie que vous pouvez transformer vos données plutôt que de descendre une allée aveugle où vous êtes acheté en une norme qui n’est pas traduite par des données modernes.

Comment Dow tire-t-il le Genai pour faire progresser la recherche et profiter de cette nouvelle technologie?

Alix: Nous avons exploité à la fois l’apprentissage automatique d’IA traditionnel et maintenant l’IA générative. Avec Genai, nous essayons toujours de donner aux chercheurs un moyen facile d’accéder à un savoir-faire interne étendu de Dow ainsi que des informations externes comme les brevets et les papiers. Nous pensons que le Genai ainsi que la recherche sémantique traditionnelle des données peuvent faire surface une partie du contexte qui n’est pas encore structuré. Nous utilisons Genai pour rendre ces informations découvrant et utilisables pour soutenir toutes les autres informations que nos chercheurs utilisent pour prendre leurs décisions.

Par exemple, si vous vouliez comprendre l’occasion de faire un nouveau type de plastique, vous pourriez parcourir toute la littérature sur les brevets sur le plastique et découvrir ce qui n’a pas encore été fait. Mais cela prend beaucoup trop de temps. Avec Genai, il existe maintenant des moyens de traiter ces informations pour suggérer de nouvelles voies. La clé ici est l’accélération et la possibilité d’utiliser cette massive de données dans Dow.

Pouvez-vous nous faire traverser certaines de vos exigences de réussite dans la création de la fondation pour Genai?

Alix: Au tout début, il s’agit de savoir comment nous sommes architectes pour la mise à l’échelle par rapport à la nécessité de faire évoluer immédiatement. Pour qu’une solution Genai fonctionne efficacement, nous devons nous concentrer sur des données interopérables de qualité comme carburant. Cela implique d’épouser l’agrégation avec le contexte; Standardiser où vous pouvez ou du moins comprendre dynamiquement où les choses sont sémantiquement équivalentes et où vous devrez peut-être faire venir des ontologies et des taxonomies qui aident à décrire ces relations.

Pouvez-vous développer vos besoins en sécurité et pourquoi il est si important de les avoir en place?

Simon: Le nombre d’années de données que nous avons est incroyable. Si nous laissions aussi ouverts au monde extérieur, nous ne serions pas très longtemps en affaires. C’est pourquoi la protection de nos données contre les attaques extérieures est essentielle – et cela signifie que nous devons mettre en place de nombreuses couches de protection différentes.

En interne, nous examinons également comment utilisons le principe du moins de privilèges en général – avez-vous besoin d’accéder à toutes les données, ou avez-vous vraiment besoin d’accéder à un sous-ensemble des données? De plus, nous travaillons avec des partenaires externes et nous sommes très prudents pour s’assurer que les informations entre les partenaires ne sont pas accidentellement divulguées à travers les frontières.

Comment diriez-vous que les progrès vous ont soutenu et vous ont permis de construire ces solutions?

John: Nous avons d’abord amené Marklogic pour aider à notre problème dans la recherche de la littérature. Notre solution antérieure a été architectée pour la gestion des documents, il a donc fait un très bon travail avec le workflow et les signes.

Maintenant nous utilisons Marklogique Pour aider à gérer la littérature et permettre à nos chercheurs d’accéder et de trouver les informations dont ils ont besoin. Nous élargissons ce cas d’utilisation pour construire dans de nouveaux systèmes tels qu’un centre de données où nous pouvons agréger les données structurées et non structurées de divers systèmes. Le centre de données est essentiel pour les efforts de notre groupe pour améliorer les métadonnées qui manquent à la fois pour rendre les données faciles à accéder et à normaliser la sécurité autour de l’accès aux données. Alors que nous commençons à enrichir ces données, il devient une très bonne source pour alimenter les modèles Genai et d’autres types de technologies.

L’espace entier de la façon dont vous produisez l’entreprise Solution GenaiS est un domaine qui n’a que quelques ans, mais quelques architectures sont devenues très populaires, comme le chiffon, et en particulier le chiffon vectoriel. Les capacités fournies par les progrès Graphiques de connaissances, Le chiffon graphique et d’autres types de recherche sémantique sont tout aussi intéressants en termes de fournir à un utilisateur la réponse qui les intéresse vraiment. Nous ne mettons pas seulement tous nos œufs dans un panier avec Vector Rag – nous explorons différentes options et comment nous pouvons combiner les différents outils de notre boîte à outils pour faire surface les bonnes informations grâce à une approche hybride.

Regardez l’interview entière

Ce message est un résumé des informations présentées par le panel, qui a fait une plongée beaucoup plus profonde dans les sujets abordés. Si vous souhaitez regarder l’interview dans son intégralité, vous pouvez le voir ici.

Regardez la table ronde




Source link