Fermer

octobre 31, 2021

L'IA apprend maintenant à évoluer comme des formes de vie terrestres


Cet article fait partie de nos revues d'articles de recherche sur l'IA une série de publications qui explorent les dernières découvertes en matière d'intelligence artificielle.

Des centaines de millions d'années d'évolution ont béni notre planète avec un grande variété de formes de vie, chacune intelligente à sa manière. Chaque espèce a évolué pour développer des compétences innées, des capacités d'apprentissage et une forme physique qui assurent sa survie dans son environnement.

Mais en dépit d'être inspiré par la nature et l'évolution, le domaine de l'intelligence artificielle s'est largement concentré sur la création des éléments de l'intelligence. séparément et en les fusionnant après le développement. Bien que cette approche ait donné d'excellents résultats, elle a également limité la flexibilité des agents d'IA dans certaines des compétences de base trouvées même dans les formes de vie les plus simples.

Dans un nouvel article publié dans la revue scientifique Nature, Des chercheurs en IA de l'Université de Stanford présentent une nouvelle technique qui peut aider à franchir certaines de ces limites. Intitulée « Deep Evolutionary Reinforcement Learning », la nouvelle technique utilise un environnement virtuel complexe et un apprentissage par renforcement pour créer des agents virtuels qui peuvent évoluer à la fois dans leur structure physique et leurs capacités d’apprentissage. Les résultats peuvent avoir des implications importantes pour l'avenir de la recherche en IA et en robotique.

Dans la nature, le corps et le cerveau évoluent ensemble. À travers de nombreuses générations, chaque espèce animale a traversé d'innombrables cycles de mutation pour développer des membres, des organes et un système nerveux afin de soutenir les fonctions dont elle a besoin dans son environnement. Les moustiques ont une vision thermique pour détecter la chaleur corporelle. Les chauves-souris ont des ailes pour voler et un appareil d'écholocalisation pour naviguer dans les endroits sombres. Les tortues marines ont des nageoires pour nager et un système de détection de champ magnétique pour parcourir de très longues distances. Les humains ont une posture droite qui libère leurs bras et leur permet de voir l'horizon lointain, des mains et des doigts agiles qui peuvent manipuler des objets, et un cerveau qui fait d'eux les meilleures créatures sociales et résolveurs de problèmes sur la planète.

Fait intéressant, tout cela. Les espèces descendent de la première forme de vie apparue sur Terre il y a plusieurs milliards d'années. Sur la base des pressions de sélection causées par l'environnement, les descendants de ces premiers êtres vivants ont évolué dans de nombreuses directions différentes.

L'étude de l'évolution de la vie et de l'intelligence est intéressante. Mais le reproduire est extrêmement difficile . Un système d'IA qui voudrait recréer une vie intelligente de la même manière que l'évolution l'a fait devrait rechercher un très grand espace de morphologies possibles, ce qui est extrêmement coûteux en calcul. Cela nécessiterait de nombreux cycles d'essais et d'erreurs parallèles et séquentiels.

Les chercheurs en IA utilisent plusieurs raccourcis et fonctionnalités prédéfinies pour surmonter certains de ces défis. Par exemple, ils corrigent l'architecture ou la conception physique d'une IA ou d'un système robotique et se concentrent sur l'optimisation des paramètres d'apprentissage. Un autre raccourci est l'utilisation de l'évolution Lamarckienne plutôt que darwinienne, dans laquelle les agents d'IA transmettent leurs paramètres appris à leurs descendants. Une autre approche consiste à former séparément différents sous-systèmes d'IA (vision, locomotion, langage, etc.), puis à les assembler dans un système final d'IA ou de robotique. Bien que ces approches accélèrent le processus et réduisent les coûts de formation et d'évolution des agents d'IA, elles limitent également la flexibilité et la variété des résultats qui peuvent être obtenus. Crédit : Ben Dickson / TechTalks

Dans leurs nouveaux travaux, les chercheurs de Stanford visent à rapprocher la recherche en IA de la véritable évolution processus tout en maintenant les coûts aussi bas que possible. "Notre objectif est d'élucider certains principes régissant les relations entre la complexité environnementale, la morphologie évoluée et la capacité d'apprentissage du contrôle intelligent", écrivent-ils dans leur article.

Leur cadre s'appelle Deep Evolutionary Reinforcement Learning. Dans le DERL, chaque agent utilise un apprentissage par renforcement approfondi pour acquérir les compétences nécessaires pour maximiser ses objectifs au cours de sa vie. DERL utilise l'évolution darwinienne pour rechercher dans l'espace morphologique des solutions optimales, ce qui signifie que lorsqu'une nouvelle génération d'agents d'IA est engendrée, ils n'héritent que des traits physiques et architecturaux de leurs parents (avec de légères mutations). Aucun des paramètres appris n'est transmis d'une génération à l'autre.

« DERL ouvre la porte à la réalisation d'expériences in silico à grande échelle pour fournir des informations scientifiques sur la façon dont l'apprentissage et l'évolution créent en coopération des relations sophistiquées entre la complexité environnementale, l'intelligence morphologique et la capacité d'apprentissage. des tâches de contrôle », écrivent les chercheurs.

Simulation d'évolution

Leur espace de conception s'appelle UNIversal aniMAL (UNIMAL), dans lequel le but est de créer des morphologies qui apprennent des tâches de locomotion et de manipulation d'objets dans une variété de terrains.

Chaque agent dans l'environnement est composé d'un génotype qui définit ses membres. et articulations. Le descendant direct de chaque agent hérite du génotype du parent et subit des mutations qui peuvent créer de nouveaux membres, supprimer des membres existants ou apporter de petites modifications à des caractéristiques telles que les degrés de liberté ou la taille des membres.

Chaque agent est entraîné avec. apprentissage par renforcement pour maximiser les récompenses dans divers environnements. La tâche la plus élémentaire est la locomotion, dans laquelle l'agent est récompensé pour la distance qu'il parcourt au cours d'un épisode. Les agents dont la structure physique est mieux adaptée pour traverser le terrain apprennent plus rapidement à utiliser leurs membres pour se déplacer.

Pour tester les résultats du système, les chercheurs ont généré des agents dans trois types de terrains : plat (FT), variable (VT) et terrains variables avec objets modifiables (MVT). Le terrain plat exerce une pression de sélection moindre sur la morphologie des agents. Les terrains variables, en revanche, obligent les agents à développer une structure physique plus polyvalente qui peut gravir des pentes et contourner les obstacles. La variante MVT présente le défi supplémentaire d'exiger des agents qu'ils manipulent des objets pour atteindre leurs objectifs.

Les avantages de DERL

Les avantages de DERL
Crédit : Ben Dickson / TechTalks