Fermer

août 1, 2022

Les grands modèles de langage ne peuvent pas planifier, même s’ils écrivent des essais fantaisistes


Cet article fait partie de notre couverture des dernières Recherche en IA.

Les grands modèles de langage comme GPT-3 ont évolué au point qu’il est devenu difficile de mesurer les limites de leurs capacités. Lorsque vous avez un très grand réseau de neurones qui peut générer des articlesécrivez code logicielet engager des conversations sur sensibilité et vievous devriez vous attendre à ce qu’il soit capable de raisonner sur les tâches et de planifier comme le fait un humain, n’est-ce pas ?

Mauvais. UN étude par des chercheurs de l’Arizona State University, Tempe, montre qu’en matière de planification et de réflexion méthodique, les LLM fonctionnent très mal et souffrent de bon nombre des mêmes échecs observés dans les systèmes actuels d’apprentissage en profondeur.

Salutations, humanoïdes

Abonnez-vous à notre newsletter maintenant pour un récapitulatif hebdomadaire de nos histoires préférées sur l’IA dans votre boîte de réception.

Fait intéressant, l’étude révèle que, même si de très grands LLM comme GPT-3 et PaLM réussissent bon nombre des tests destinés à évaluer les capacités de raisonnement et les systèmes d’intelligence artificielle, ils le font parce que ces repères sont soit trop simplistes, soit trop imparfaits et peuvent être «trompés» par des astuces statistiques, ce que les systèmes d’apprentissage en profondeur sont très bon à.

Alors que les LLM innovent chaque jour, les auteurs proposent une nouvelle référence pour tester les capacités de planification et de raisonnement des systèmes d’IA. Les chercheurs espèrent que leurs découvertes pourront aider à orienter la recherche sur l’IA vers le développement de systèmes d’intelligence artificielle capables de gérer ce qui est devenu populairement connu sous le nom de « pensée du système 2 » Tâches.

L’illusion de la planification et du raisonnement

« L’année dernière, nous évaluions la capacité de GPT-3 à extraire des plans à partir de descriptions textuelles – une tâche qui avait déjà été tentée avec des méthodes à usage spécial – et avons constaté que le GPT-3 prêt à l’emploi se débrouille plutôt bien par rapport aux méthodes à usage spécial. », a déclaré Subbarao Kambhampati, professeur à l’Arizona State University et co-auteur de l’étude, à TechTalks. «Cela nous a naturellement amenés à nous demander quelles «capacités émergentes» – le cas échéant – GPT3 a pour résoudre les problèmes de planification les plus simples (par exemple, générer des plans dans des domaines de jouets). Nous avons tout de suite constaté que GPT3 est assez spectaculairement mauvais lors de tests anecdotiques.

Cependant, un fait intéressant est que GPT-3 et d’autres grands modèles de langage fonctionnent très bien sur des références conçues pour le raisonnement de bon sens, le raisonnement logique et le raisonnement éthique, des compétences qui étaient auparavant considérées comme interdites pour les systèmes d’apprentissage en profondeur. UN étude précédente par le groupe de Kambhampati à l’Université d’État de l’Arizona montre l’efficacité des grands modèles de langage pour générer des plans à partir de descriptions textuelles. D’autres études récentes incluent une qui montre que les LLM peuvent faire raisonnement à zéro s’il est fourni avec une phrase de déclenchement spéciale.

Cependant, le « raisonnement » est souvent utilisé au sens large dans ces repères et études, estime Kambhampati. Ce que font les LLM, en fait, c’est créer un semblant de planification et de raisonnement grâce à la reconnaissance des formes.

« La plupart des repères dépendent d’un type de raisonnement superficiel (une ou deux étapes), ainsi que de tâches pour lesquelles il n’y a parfois aucune vérité de terrain réelle (par exemple, amener les LLM à raisonner sur des dilemmes éthiques) », a-t-il déclaré. « Il est possible qu’un moteur de complétion de modèles purement sans capacités de raisonnement fonctionne toujours bien sur certains de ces benchmarks. Après tout, alors que les capacités de raisonnement du système 2 peuvent parfois être compilées sur le système 1, il est également vrai que les «capacités de raisonnement» du système 1 peuvent simplement être des réponses réflexives à partir de modèles que le système a vus dans ses données d’entraînement, sans rien faire qui ressemble à un raisonnement. .”

Pensée système 1 et système 2

Système 1 et Système 2 pensée ont été popularisées par le psychologue Daniel Kahneman dans son livre Thinking Fast and Slow. Le premier est le type de pensée et d’action rapide, réflexif et automatisé que nous faisons la plupart du temps, comme marcher, se brosser les dents, lacer nos chaussures ou conduire dans une zone familière. Même une grande partie de la parole est effectuée par le système 1.

Le système 2, en revanche, est le mode de réflexion le plus lent que nous utilisons pour les tâches qui nécessitent une planification et une analyse méthodiques. Nous utilisons le Système 2 pour résoudre des équations de calcul, jouer aux échecs, concevoir des logiciels, planifier un voyage, résoudre un casse-tête, etc.

Mais la ligne entre le système 1 et le système 2 n’est pas claire. Prenez la conduite, par exemple. Lorsque vous apprenez à conduire, vous devez vous concentrer pleinement sur la façon dont vous coordonnez vos muscles pour contrôler la vitesse, le volant et les pédales tout en gardant un œil sur la route et les rétroviseurs latéraux et arrière. C’est clairement le système 2 au travail. Il consomme beaucoup d’énergie, requiert toute votre attention et est lent. Mais au fur et à mesure que vous répétez les procédures, vous apprenez à les faire sans réfléchir. La tâche de conduite passe à votre système 1, vous permettant de l’accomplir sans vous fatiguer l’esprit. Un des critères d’une tâche qui a été intégrée au Système 1 est la capacité de la faire inconsciemment tout en se concentrant sur une autre tâche (par exemple, vous pouvez lacer votre chaussure et parler en même temps, vous brosser les dents et lire, conduire et parler , etc.).

Même bon nombre des tâches très compliquées qui restent dans le domaine du système 2 finissent par être partiellement intégrées au système 1. Par exemple, les joueurs d’échecs professionnels s’appuient beaucoup sur la reconnaissance des formes pour accélérer leur processus de prise de décision. Vous pouvez voir des exemples similaires en mathématiques et en programmation, où après avoir fait les choses encore et encore, certaines des tâches qui nécessitaient auparavant une réflexion approfondie vous viennent automatiquement.

Un phénomène similaire pourrait se produire dans les systèmes d’apprentissage en profondeur qui ont été exposés à de très grands ensembles de données. Ils ont peut-être appris à faire la phase simple de reconnaissance de formes de tâches de raisonnement complexes.

« La génération de plans nécessite d’enchaîner les étapes de raisonnement pour élaborer un plan, et une vérité solide sur l’exactitude peut être établie », a déclaré Kambhampati.

Une nouvelle référence pour la planification des tests dans les LLM

« Compte tenu du enthousiasme autour des propriétés cachées/émergentes des LLM cependant, nous avons pensé qu’il serait plus constructif de développer une référence qui fournit une variété de tâches de planification/de raisonnement qui peuvent servir de référence à mesure que les gens améliorent les LLM via un réglage fin et d’autres approches pour personnaliser/améliorer leurs performances sur/sur les tâches de raisonnement . C’est ce que nous avons fini par faire », a déclaré Kambhampati.

L’équipe a développé son benchmark sur la base des domaines utilisés dans le concours international d’urbanisme (CIB). Le cadre se compose de plusieurs tâches qui évaluent différents aspects du raisonnement. Par exemple, certaines tâches évaluent la capacité des LLM à créer des plans valides pour atteindre un certain objectif tandis que d’autres testent si le plan généré est optimal. D’autres tests incluent le raisonnement sur les résultats d’un plan, la reconnaissance si différentes descriptions de texte font référence au même objectif, la réutilisation de parties d’un plan dans un autre, le mélange de plans, etc.

Pour effectuer les tests, l’équipe a utilisé Monde des blocs, un cadre de problèmes qui consiste à placer un ensemble de blocs différents dans un ordre particulier. Chaque problème a une condition initiale, un objectif final et un ensemble d’actions autorisées.

« Le benchmark lui-même est extensible et est destiné à avoir des tests de plusieurs des domaines IPC », a déclaré Kambhampati. « Nous avons utilisé les exemples du monde Blocks pour illustrer les différentes tâches. Chacune de ces tâches (par exemple, la génération de plans, la redistribution des objectifs, etc.) peut également être posée dans d’autres domaines IPC. »

La référence développée par Kambhampati et ses collègues utilise apprentissage en quelques coupsoù l’invite donnée au modèle d’apprentissage automatique comprend un exemple résolu plus le problème principal qui doit être résolu.

Contrairement à d’autres benchmarks, les descriptions des problèmes de ce nouveau benchmark sont très longues et détaillées. Les résoudre nécessite de la concentration et une planification méthodique et ne peut être trompé par la reconnaissance de formes. Même un humain qui voudrait les résoudre devrait réfléchir attentivement à chaque problème, prendre des notes, éventuellement faire des visualisations et planifier la solution étape par étape.

« Le raisonnement est une tâche du système 2 en général. L’illusion collective de la communauté a été de regarder ces types de repères de raisonnement qui pourraient probablement être traités via la compilation vers le système 1 (par exemple, ‘la réponse à ce dilemme éthique, par l’achèvement du modèle, est ceci’) par opposition à faire réellement le raisonnement qui est nécessaire pour la tâche à accomplir », a déclaré Kambhampati.

Les grands modèles de langage sont mauvais pour la planification

Les chercheurs ont testé leur framework sur Davinci, la plus grande version de GPT-3. Leurs expériences montrent que GPT-3 a des performances médiocres sur certains types de tâches de planification, mais fonctionne très mal dans des domaines tels que la réutilisation des plans, la généralisation des plans, la planification optimale et la replanification.

« Les premières études que nous avons vues montrent essentiellement que les LLM sont particulièrement mauvais pour tout ce qui serait considéré comme des tâches de planification, y compris la génération de plans, la génération de plans optimaux, la réutilisation de plans ou la replanification », a déclaré Kambhampati. « Ils réussissent mieux les tâches liées à la planification qui ne nécessitent pas de chaînes de raisonnement, comme le remaniement des objectifs. »

À l’avenir, les chercheurs ajouteront des cas de test basés sur d’autres domaines IPC et fourniront des références de performances avec des sujets humains sur les mêmes références.

« Nous sommes également nous-mêmes curieux de savoir si d’autres variantes de LLM font mieux sur ces points de référence », a déclaré Kambhampati.

Kambhampati souligne que l’objectif du projet est d’établir la référence et de donner une idée de la situation de référence actuelle. Les chercheurs espèrent que leurs travaux ouvriront de nouvelles fenêtres pour développer la capacité de planification et de raisonnement des systèmes d’IA actuels. Par exemple, une direction qu’ils proposent est d’évaluer l’efficacité de la mise au point des LLM pour le raisonnement et la planification dans des domaines spécifiques. L’équipe a déjà des résultats préliminaires sur une variante suivant les instructions de GPT-3 qui semble faire légèrement mieux sur les tâches faciles, bien qu’elle reste également autour du niveau de 5% pour les tâches réelles de génération de plans, a déclaré Kambhampati.

Kambhampati pense également que l’apprentissage et l’acquisition de modèles mondiaux seraient une étape essentielle pour tout système d’IA capable de raisonner et de planifier. D’autres scientifiques, dont pionnier du deep learning Yann LeCunont fait des suggestions similaires.

« Si nous convenons que le raisonnement fait partie de l’intelligence et que nous voulons prétendre que les LLM le font, nous avons certainement besoin de repères de génération de plans là-bas », a déclaré Kambhampati. « Plutôt que de prendre une position négative magistrale, nous fournissons une référence, afin que les personnes qui croient que le raisonnement peut émerger des LLM même sans mécanismes spéciaux tels que les modèles mondiaux et le raisonnement sur la dynamique, puissent utiliser la référence pour étayer leur point de vue. voir. »

Cet article a été initialement publié par Ben Dickson sur TechTalks, une publication qui examine les tendances de la technologie, comment elles affectent notre façon de vivre et de faire des affaires, et les problèmes qu’elles résolvent. Mais nous discutons également du côté pervers de la technologie, des implications les plus sombres des nouvelles technologies et de ce que nous devons surveiller. Vous pouvez lire l’article original ici.






Source link