Site icon Blog ARC Optimizer

Yann LeCun de Meta parie sur l'apprentissage auto-supervisé pour débloquer une IA compatible avec l'humain


Cet article fait partie de notre couverture des dernièresRecherche en IA.

Quelle est la prochaine étape pour combler le fossé entre l'intelligence naturelle et artificielle ? Scientifiques et chercheurs sont divisés sur la réponse. Yann LeCun, scientifique en chef de l'IA chez Meta et récipiendaire du prix Turing 2018, parie sur l'apprentissage auto-supervisé, des modèles d'apprentissage automatique qui peuvent être formés sans avoir besoin d'exemples étiquetés par l'homme.

LeCun a pensé et parlé deapprentissage auto-supervisé et non supervisé pendant des années. Mais au fur et à mesure que ses recherches et les domaines de l'IA et des neurosciences ont progressé, sa vision a convergé autour de plusieurs concepts et tendances prometteurs.

Dans un récentévénement organisé par Meta AILeCun a discuté des voies possibles vers l'IA au niveau humain, des défis qui subsistent et de l'impact des progrès de l'IA.

Les modèles du monde sont au cœur d'un apprentissage efficace

Parmi les connuslimites de l'apprentissage en profondeur est le besoin de données de formation massives et le manque de robustesse pour faire face à de nouvelles situations. Cette dernière est appelée « généralisation hors distribution » ou sensibilité aux « cas extrêmes ».

Ce sont des problèmes que les humains et les animaux apprennent à résoudre très tôt dans leur vie. Vous n'avez pas besoin de conduire d'une falaise pour savoir que votre voiture va tomber et s'écraser. Vous savez que lorsqu'un objet occulte un autre objet, ce dernier existe toujours même s'il n'est pas visible. Vous savez que si vous frappez une balle avec un club, vous l'enverrez voler dans la direction du swing.

Nous apprenons la plupart de ces choses sans en être explicitement informés,purement par l'observation et l'action dans le monde . Nous développons un "modèle du monde" au cours des premiers mois de notre vie et apprenons la gravité, les dimensions, les propriétés physiques, la causalité, etc. Ce modèle nous aide à développer notre bon sens et à faire des prédictions fiables sur ce qui se passera dans le monde qui nous entoure. Nous utilisons ensuite ces éléments de base pour accumuler des connaissances plus complexes.

Les systèmes d'IA actuels sontmanque cette connaissance de bon sensc'est pourquoi ils sont gourmands en données, nécessitent des exemples étiquetés et sont très rigides et sensibles aux données hors distribution.

La question que LeCun explore est la suivante : comment faire en sorte que les machines apprennent des modèles du monde principalement par l'observation et accumulent les énormes connaissances que les bébés accumulent simplement par l'observation ?

Apprentissage auto-supervisé

LeCun croit queapprentissage profond et réseaux de neurones artificiels jouera un grand rôle dans l'avenir de l'IA. Plus précisément, il préconise l'apprentissage auto-supervisé, une branche du ML qui réduit le besoin d'intervention humaine et de conseils dans la formation des réseaux de neurones.

La branche la plus populaire du ML estenseignement supervisé , dans lequel les modèles sont formés sur des exemples étiquetés. Bien que l'apprentissage supervisé ait connu un grand succès dans diverses applications, son exigence d'annotation par un acteur extérieur (principalement des humains) s'est avérée être un goulot d'étranglement. Premièrement, les modèles de ML supervisés nécessitent un énorme effort humain pour étiqueter les exemples de formation. Et deuxièmement, les modèles de ML supervisés ne peuvent pas s'améliorer car ils ont besoin d'une aide extérieure pour annoter de nouveaux exemples de formation.

En revanche, les modèles de ML auto-supervisés apprennent en observant le monde, en discernant des modèles, en faisant des prédictions (et parfois en agissant et en faisant des interventions) et en mettant à jour leurs connaissances en fonction de la façon dont leurs prédictions correspondent aux résultats qu'ils voient dans le monde. C'est comme un système d'apprentissage supervisé qui fait sa propre annotation de données.

Le paradigme de l'apprentissage auto-supervisé est beaucoup plus adapté à la façon dont les humains et les animaux apprennent. Nous, les humains, faisons beaucoup d'apprentissage supervisé, mais nous acquérons la plupart de nos compétences fondamentales et de bon sens grâce à un apprentissage auto-supervisé.

L'apprentissage auto-supervisé est un objectif extrêmement recherché dans la communauté ML car une très petite fraction des données existantes est annotée. Être capable de former des modèles ML sur d'énormes magasins de données non étiquetées a de nombreuses applications.

Ces dernières années, l'apprentissage auto-supervisé a trouvé sa place dans plusieurs domaines du ML, y comprisgrands modèles de langage . Fondamentalement, un modèle de langage auto-supervisé est formé en recevant des extraits de texte dans lesquels certains mots ont été supprimés. Le modèle doit essayer de prédire les pièces manquantes. Étant donné que le texte original contient les parties manquantes, ce processus ne nécessite aucun étiquetage manuel et peut s'adapter à de très grands corpus de texte tels que Wikipédia et des sites Web d'actualités. Le modèle formé apprendra des représentations solides de la façon dont le texte est structuré. Il peut être utilisé pour des tâches telles que la génération de texte ou affiné sur des tâches en aval telles que la réponse aux questions.

Les scientifiques ont également réussi à appliquer l'apprentissage auto-supervisé à des tâches de vision par ordinateur telles quel'imagerie médicale . Dans ce cas, la technique est appelée "apprentissage contrastif", dans laquelle un réseau de neurones est formé pour créer des représentations latentes d'images non étiquetées. Par exemple, lors de l'entraînement, le modèle reçoit différentes copies d'une image avec différentes modifications (par exemple, rotation, recadrage, zoom, modifications de couleur, différents angles du même objet). Le réseau ajuste ses paramètres jusqu'à ce que sa sortie reste cohérente à travers différentes variations de la même image. Le modèle peut ensuite être affiné sur une tâche en aval avec moins d'images étiquetées.

Exemple d'apprentissage auto-supervisé en imagerie médicale. Image:arXiv

Abstractions de haut niveau

Plus récemment, des scientifiques ont expérimenté l'apprentissage pur auto-supervisé sur des tâches de vision par ordinateur. Dans ce cas, le modèle doit prédire les parties occluses d'une image ou de l'image suivante dans une vidéo.

C'est un problème extrêmement difficile, dit LeCun. Les images sont des espaces de très grande dimension. Il existe une infinité de façons de disposer les pixels dans une image. Les humains et les animaux sont bons pour anticiper ce qui se passe dans le monde qui les entoure, mais ils n'ont pas besoin de prédire le monde au niveau du pixel. Nous utilisons des abstractions de haut niveau et des connaissances de base pour filtrer intuitivement l'espace des solutions et nous concentrer sur quelques résultats plausibles.

Les modèles d'apprentissage auto-supervisés tentent de prédire les parties occultées des images. Image:arXiv

Par exemple, lorsque vous voyez une vidéo d'une balle volante, vous vous attendez à ce qu'elle reste sur sa trajectoire dans les images suivantes. S'il y a un mur devant, vous vous attendez à ce qu'il rebondisse. Vous le savez parce que vous avez des connaissances en physique intuitive et que vous savez comment fonctionnent les corps rigides et mous.

De même, lorsqu'une personne vous parle, vous vous attendez à ce que les traits de son visage changent d'une image à l'autre. Leur bouche, leurs yeux et leurs sourcils bougeront pendant qu'ils parleront, ils pourraient légèrement incliner ou hocher la tête. Mais vous ne vous attendez pas à ce que leur bouche et leurs oreilles changent soudainement de place. C'est parce que vous avez dans votre esprit des représentations de haut niveau des visages et que vous connaissez les contraintes qui régissent le corps humain.

LeCun pense que l'apprentissage auto-supervisé avec ces types d'abstractions de haut niveau sera essentiel pour développer le type de modèles mondiaux robustes requis pour l'IA au niveau humain. L'un des éléments importants de la solution sur laquelle travaille LeCun est l'architecture prédictive d'intégration conjointe (JEPA). Les modèles JEPA apprennent des représentations de haut niveau qui capturent les dépendances entre deux points de données, comme deux segments de vidéo qui se suivent. JEPA remplace l'apprentissage contrastif par des techniques « régularisées » qui peuvent extraire des caractéristiques latentes de haut niveau de l'entrée et éliminer les informations non pertinentes. Cela permet au modèle de faire des inférences sur des informations de grande dimension telles que des données visuelles.

Les modules JEPA peuvent être empilés les uns sur les autres pour faire des prédictions et des décisions à différentes échelles spatiales et temporelles.

Architecture prédictive d'intégration conjointe (JEPA). Image:Méta

Architecture modulaire

Lors de l'événement Meta AI, LeCun a également parlé d'une architecture modulaire pour l'IA au niveau humain. Le modèle mondial sera un élément clé de cette architecture. Mais il devra également se coordonner avec d'autres modules. Parmi eux se trouve un module de perception qui reçoit et traite les informations sensorielles du monde. Un module d'acteur transforme les perceptions et les prédictions en actions. Un module de mémoire à court terme garde une trace des actions et des perceptions et comble les lacunes dans les informations du modèle. Un module de coût permet d'évaluer les coûts intrinsèques (ou câblés) des actions ainsi que la valeur spécifique à la tâche des états futurs.

Et il y a un module de configuration qui ajuste tous les autres modules en fonction des tâches spécifiques que le système d'IA veut effectuer. Le configurateur est extrêmement important car il régule l'attention et les ressources de calcul limitées du modèle sur les informations pertinentes pour ses tâches et objectifs actuels. Par exemple, si vous jouez ou regardez un match de basket-ball, votre système de perception sera axé sur des caractéristiques et des composants spécifiques du monde (par exemple, le ballon, les joueurs, les limites du terrain, etc.). En conséquence, votre modèle mondial essaiera de prédire les caractéristiques hiérarchiques qui sont plus pertinentes pour la tâche à accomplir (par exemple, où le ballon atterrira-t-il, à qui le ballon sera-t-il passé, le joueur qui tient le ballon tirera-t-il ou dribblera-t-il ?) et rejeter les caractéristiques non pertinentes (par exemple, les actions des spectateurs, les mouvements et les bruits d'objets à l'extérieur du terrain de basket).

Une architecture d'IA modulaire qui utilise plusieurs composants pour comprendre le monde et agir.

LeCun pense que chacun de ces modules peut apprendre ses tâches de manière différentiable et communiquer entre eux via des abstractions de haut niveau. Ceci est à peu près similaire au cerveau des humains et des animaux, qui ont une architecture modulaire (différentes aires corticales, hypothalamus, ganglions de la base, amygdale, tronc cérébral, hippocampe, etc.), chacun ayant des connexions avec les autres et sa propre structure neurale , qui s'actualise progressivement avec l'expérience de l'organisme.

Que fera l'IA au niveau humain ?

La plupart des discussions deIA au niveau humain concernent des machines qui remplacent l'intelligence naturelle et effectuent toutes les tâches qu'un humain peut effectuer. Naturellement, ces discussions débouchent sur des sujets tels que le chômage technologique,singularité , intelligence galopante et invasions de robots. Les scientifiques sont largement divisés sur les perspectives de l'intelligence artificielle générale. Y aura-t-il une chose telle que l'intelligence artificielle sansle besoin de survivre et de se reproduire , moteur principal de l'évolution de l'intelligence naturelle ? La conscience est-elle une condition préalable à l'IAG ? AGI aura-t-il ses propres objectifs et désirs ? Peut-on créer un cerveau dans une cuve et sans coquille physique ? Ce sont quelques-unes des questions philosophiques auxquelles il reste encore à répondre alors que les scientifiques progressent lentement vers l'objectif longtemps recherché des machines pensantes.

Mais une direction de recherche plus pratique consiste à créer une IA « compatible avec l'intelligence humaine ». C'est, je pense, la promesse que tient le domaine de recherche de LeCun. C'est le genre d'IA qui pourrait ne pas être capable de faire indépendamment la prochaine grande invention ou d'écrire un roman captivant, mais cela aidera sûrement les humains à devenir plus créatifs et productifs ettrouver des solutions à des problèmes compliqués . Cela rendra probablement nos routes plus sûres, nos systèmes de santé plus efficaces, notre technologie de prévision météorologique plus stable, nos résultats de recherche plus pertinents, nos robots moins stupides et nos assistants virtuels plus utiles.

En fait, interrogé sur les aspects les plus excitants de l'avenir de l'IA au niveau humain, LeCun a déclaré qu'il pensait que c'était «l'amplification de l'intelligence humaine, le fait que chaque humain puisse faire plus de choses, être plus productif, plus créatif, dépenser plus de temps sur des activités épanouissantes, ce qui est l'histoire de l'évolution technologique.

Cet article a été initialement publié par Ben Dickson sur TechTalks , une publication qui examine les tendances technologiques, leur impact sur notre façon de vivre et de faire des affaires, et les problèmes qu'elles résolvent. Mais nous discutons également du côté pervers de la technologie, des implications les plus sombres des nouvelles technologies et de ce que nous devons surveiller. Vous pouvez lire l'article originalici.






Source link
Quitter la version mobile