Fermer

janvier 24, 2024

La NASA accélère la science grâce à la recherche basée sur l’IA

La NASA accélère la science grâce à la recherche basée sur l’IA



Lorsque vous générez et collectez autant de données que le fait la National Aeronautics and Space Administration (NASA), trouver le bon ensemble de données pour votre projet de recherche peut être un problème.

Avec sept centres d’opérations, neuf installations de recherche et plus de 18 000 employés, la NASA génère constamment une quantité impressionnante de données et les utilise en astrophysique, héliophysique, sciences biologiques, sciences physiques, sciences de la Terre et sciences planétaires. 30 référentiels de données scientifiques couvrant cinq domaines spécialisés. Au total, il héberge plus de 88 000 ensembles de données et plus de 715 000 documents répartis dans 128 sources de données. À elles seules, les données des sciences de la Terre devraient atteindre 250 pétaoctets d’ici 2025. Compte tenu de cette complexité, les scientifiques ont besoin de plus que de simples connaissances techniques pour s’y retrouver.

« Les chercheurs doivent savoir vers quels référentiels se rendre et ce qu’ils contiennent », explique Kaylin Bagbee, data scientist de la NASA au Marshall Space Flight Center à Huntsville, en Alabama. « Nous avons besoin à la fois d’une culture scientifique et d’une culture des données. »

En 2019, la Direction des missions scientifiques (SMD) de la NASA a publié un rapport basé sur une série d’entretiens avec des scientifiques, affirmant que les scientifiques ont besoin de capacités de recherche centralisées pour trouver les données dont ils ont besoin. La mission de SMD est de collaborer avec la communauté scientifique américaine, de soutenir la recherche scientifique et d’utiliser des programmes d’avions, de ballons et de vols spatiaux pour explorer l’orbite terrestre, le système solaire et au-delà. SMD reconnaît que rendre les données de SMD accessibles aux scientifiques et aux chercheurs est fondamental pour l’objectif de SMD et vise à améliorer la transparence, l’exhaustivité, l’accessibilité et la reproductibilité de la recherche scientifique financée par des fonds publics. L’Open Source Science Initiative (OSSI) a été développée à la suite de la rapport. La mission d’OSSI est de partager ouvertement des logiciels, des données et des connaissances (y compris des algorithmes, des articles, des documents et des informations complémentaires) le plus tôt possible dans le processus scientifique.

« Cela vient vraiment des scientifiques et de la communauté scientifique, et cela correspond aux priorités plus larges de SMD consistant à permettre une science interdisciplinaire », a déclaré Bagby. «C’est là que l’on fait de nouvelles découvertes», dit-il.

Pour poursuivre sa mission, elle se tourne désormais vers une combinaison de réseaux neuronaux et d’IA générative pour mettre de grandes quantités de données entre les mains des scientifiques.

rétablir l’ordre

Un élément clé d’OSSI est le Science Discovery Engine (SDE). Il s’agit d’une capacité centrale de recherche et de découverte de toutes les données et informations scientifiques ouvertes de la NASA, alimentée par la plateforme de recherche d’entreprise de Sinequa.

« Avant la création du SDE, il n’existait pas d’endroit unique où rechercher les données et les documents ouverts de la NASA. Aujourd’hui, il sert de centre de recherche unique pour nos données scientifiques ouvertes. « Nous avons beaucoup de monde », a déclaré Bagby.

Sinequa, basé à New York, a débuté comme moteur de recherche sémantique il y a plus de 20 ans, en se concentrant sur l’exploitation de l’IA et des modèles linguistiques à grande échelle (LLM) pour fournir des informations de recherche contextuelles. La plateforme a depuis été améliorée en intégrant le service Azure OpenAI de Microsoft avec ses propres capacités de recherche neuronale.

Plus précisément, les capacités de recherche neuronale de Sinequa combinent des recherches par mots clés et vectorielles pour découvrir des informations, tandis que GPT résume les informations collectées dans un format rapidement digestible et réutilisable. Cela permet également aux scientifiques d’utiliser le langage naturel pour poser des questions plus approfondies et affiner leurs recherches et leurs réponses. SDE comprend environ 9 000 termes scientifiques, et ce nombre devrait augmenter à mesure que l’IA apprend.

Bagby et son équipe multidisciplinaire, qui comprend des scientifiques, des développeurs et des experts en IA et ML possédant une expertise en gestion des données et en informatique, travaillent en étroite collaboration avec les parties prenantes pour répondre à leurs besoins. Compris et a également travaillé avec le bureau CIO de la NASA et Sinequa pour construire une preuve de concept. .

« Ils nous ont aidés à créer l’environnement dont nous avions besoin », explique-t-elle. « Nous devions avoir des fonctionnalités ouvertes, nous avions donc besoin d’une architecture spéciale. »

Selon Bagby, l’un des plus grands défis auxquels son équipe a été confrontée pour que tout soit opérationnel était la manière dont le contenu était distribué dans l’écosystème de la NASA. Son équipe a passé environ un an à comprendre le paysage de l’information, les données et le schéma des métadonnées.

« Toutes les informations contextuelles qui ajoutent de la richesse aux données, comme le code et des éléments comme GitHub et la documentation sur les algorithmes qui expliquent comment les données ont été développées, sont réparties sur de nombreuses pages Web. »

Préparation du lancement

Bagbee connaît bien la gestion et l’intendance des données. Elle a fait ses armes dans ce domaine pour améliorer la qualité des métadonnées de Data.gov et de la Climate Data Initiative du président Obama. Cependant, travailler dans SDE m’a appris l’importance de bons flux de travail de conservation : un processus fondé sur des principes pour créer, maintenir et gérer les données.

« Si je pouvais remonter le temps, j’aurais construit un flux de travail de curation plus solide dès le début », dit-elle. « Mais pour vraiment obtenir les résultats que nous souhaitions, nous avions besoin d’un workflow de curation. »

SDE est encore en version bêta, mais Bagby affirme que son équipe a reçu jusqu’à présent de nombreux retours positifs de la part des scientifiques et prévoit de fournir un système plus pleinement opérationnel plus tard cette année. L’équipe a déjà implémenté une nouvelle interface utilisateur qui permet aux utilisateurs de filtrer par sujet avant de lancer une recherche.

Intelligence artificielle




Source link