Fermer

mars 13, 2022

Yann LeCun de Meta parie sur l'apprentissage auto-supervisé pour débloquer une IA compatible avec l'humain


Cet article fait partie de notre couverture des dernièresRecherche en IA.

Quelle est la prochaine étape pour combler le fossé entre l'intelligence naturelle et artificielle ? Scientifiques et chercheurs sont divisés sur la réponse. Yann LeCun, scientifique en chef de l'IA chez Meta et récipiendaire du prix Turing 2018, parie sur l'apprentissage auto-supervisé, des modèles d'apprentissage automatique qui peuvent être formés sans avoir besoin d'exemples étiquetés par l'homme.

LeCun a pensé et parlé deapprentissage auto-supervisé et non supervisé pendant des années. Mais au fur et à mesure que ses recherches et les domaines de l'IA et des neurosciences ont progressé, sa vision a convergé autour de plusieurs concepts et tendances prometteurs.

Dans un récentévénement organisé par Meta AILeCun a discuté des voies possibles vers l'IA au niveau humain, des défis qui subsistent et de l'impact des progrès de l'IA.

Les modèles du monde sont au cœur d'un apprentissage efficace

Parmi les connuslimites de l'apprentissage en profondeur est le besoin de données de formation massives et le manque de robustesse pour faire face à de nouvelles situations. Cette dernière est appelée « généralisation hors distribution » ou sensibilité aux « cas extrêmes ».

Ce sont des problèmes que les humains et les animaux apprennent à résoudre très tôt dans leur vie. Vous n'avez pas besoin de conduire d'une falaise pour savoir que votre voiture va tomber et s'écraser. Vous savez que lorsqu'un objet occulte un autre objet, ce dernier existe toujours même s'il n'est pas visible. Vous savez que si vous frappez une balle avec un club, vous l'enverrez voler dans la direction du swing.

Nous apprenons la plupart de ces choses sans en être explicitement informés,purement par l'observation et l'action dans le monde . Nous développons un "modèle du monde" au cours des premiers mois de notre vie et apprenons la gravité, les dimensions, les propriétés physiques, la causalité, etc. Ce modèle nous aide à développer notre bon sens et à faire des prédictions fiables sur ce qui se passera dans le monde qui nous entoure. Nous utilisons ensuite ces éléments de base pour accumuler des connaissances plus complexes.

Les systèmes d'IA actuels sontmanque cette connaissance de bon sensc'est pourquoi ils sont gourmands en données, nécessitent des exemples étiquetés et sont très rigides et sensibles aux données hors distribution.

La question que LeCun explore est la suivante : comment faire en sorte que les machines apprennent des modèles du monde principalement par l'observation et accumulent les énormes connaissances que les bébés accumulent simplement par l'observation ?

Apprentissage auto-supervisé

LeCun croit queapprentissage profond et réseaux de neurones artificiels jouera un grand rôle dans l'avenir de l'IA. Plus précisément, il préconise l'apprentissage auto-supervisé, une branche du ML qui réduit le besoin d'intervention humaine et de conseils dans la formation des réseaux de neurones.

La branche la plus populaire du ML estenseignement supervisé , dans lequel les modèles sont formés sur des exemples étiquetés. Bien que l'apprentissage supervisé ait connu un grand succès dans diverses applications, son exigence d'annotation par un acteur extérieur (principalement des humains) s'est avérée être un goulot d'étranglement. Premièrement, les modèles de ML supervisés nécessitent un énorme effort humain pour étiqueter les exemples de formation. Et deuxièmement, les modèles de ML supervisés ne peuvent pas s'améliorer car ils ont besoin d'une aide extérieure pour annoter de nouveaux exemples de formation.

En revanche, les modèles de ML auto-supervisés apprennent en observant le monde, en discernant des modèles, en faisant des prédictions (et parfois en agissant et en faisant des interventions) et en mettant à jour leurs connaissances en fonction de la façon dont leurs prédictions correspondent aux résultats qu'ils voient dans le monde. C'est comme un système d'apprentissage supervisé qui fait sa propre annotation de données.

Le paradigme de l'apprentissage auto-supervisé est beaucoup plus adapté à la façon dont les humains et les animaux apprennent. Nous, les humains, faisons beaucoup d'apprentissage supervisé, mais nous acquérons la plupart de nos compétences fondamentales et de bon sens grâce à un apprentissage auto-supervisé.

L'apprentissage auto-supervisé est un objectif extrêmement recherché dans la communauté ML car une très petite fraction des données existantes est annotée. Être capable de former des modèles ML sur d'énormes magasins de données non étiquetées a de nombreuses applications.

Ces dernières années, l'apprentissage auto-supervisé a trouvé sa place dans plusieurs domaines du ML, y comprisgrands modèles de langage . Fondamentalement, un modèle de langage auto-supervisé est formé en recevant des extraits de texte dans lesquels certains mots ont été supprimés. Le modèle doit essayer de prédire les pièces manquantes. Étant donné que le texte original contient les parties manquantes, ce processus ne nécessite aucun étiquetage manuel et peut s'adapter à de très grands corpus de texte tels que Wikipédia et des sites Web d'actualités. Le modèle formé apprendra des représentations solides de la façon dont le texte est structuré. Il peut être utilisé pour des tâches telles que la génération de texte ou affiné sur des tâches en aval telles que la réponse aux questions.

Les scientifiques ont également réussi à appliquer l'apprentissage auto-supervisé à des tâches de vision par ordinateur telles quel'imagerie médicale . Dans ce cas, la technique est appelée "apprentissage contrastif", dans laquelle un réseau de neurones est formé pour créer des représentations latentes d'images non étiquetées. Par exemple, lors de l'entraînement, le modèle reçoit différentes copies d'une image avec différentes modifications (par exemple, rotation, recadrage, zoom, modifications de couleur, différents angles du même objet). Le réseau ajuste ses paramètres jusqu'à ce que sa sortie reste cohérente à travers différentes variations de la même image. Le modèle peut ensuite être affiné sur une tâche en aval avec moins d'images étiquetées.