Fermer

mai 23, 2022

Une nouvelle technique d’apprentissage en profondeur ouvre la voie aux robots de fabrication de pizzas

Une nouvelle technique d’apprentissage en profondeur ouvre la voie aux robots de fabrication de pizzas


Cet article fait partie de notre couverture des dernières Recherche en IA.

Pour les humains, travailler avec des objets déformables n’est pas significativement plus difficile que manipuler des objets rigides. Nous apprenons naturellement à les façonner, à les plier et à les manipuler de différentes manières tout en les reconnaissant.

Mais pour les robots et les systèmes d’intelligence artificielle, la manipulation d’objets déformables représente un énorme défi. Considérez la série d’étapes qu’un robot doit suivre pour façonner une boule de pâte en croûtes de pizza. Il doit suivre la pâte au fur et à mesure qu’elle change de forme, et en même temps, il doit choisir le bon outil pour chaque étape du travail. Ce sont des tâches difficiles pour les systèmes d’IA actuels, qui sont plus stables dans la manipulation d’objets à corps rigide, qui ont des états plus prévisibles.

Salutations humanoïdes

Abonnez-vous maintenant pour un récapitulatif hebdomadaire de nos histoires préférées sur l’IA

Maintenant, une nouvelle technique d’apprentissage en profondeur développée par des chercheurs du MIT, de l’Université Carnegie Mellon et de l’Université de Californie à San Diego, semble prometteuse pour rendre les systèmes robotiques plus stables dans la manipulation d’objets déformables. Appelé DiffSkillla technique utilise des réseaux de neurones profonds pour acquérir des compétences simples et un module de planification pour combiner les compétences afin de résoudre des tâches qui nécessitent plusieurs étapes et outils.

Manipulation d’objets déformables avec apprentissage par renforcement et apprentissage en profondeur

Si un système d’IA veut gérer un objet, il doit être capable de détecter et de définir son état et de prédire à quoi il ressemblera dans le futur. C’est un problème qui a été largement résolu pour les objets rigides. Avec un bon ensemble d’exemples de formation, un réseau neuronal profond sera capable de détecter un objet rigide sous différents angles. Cependant, lorsqu’il s’agit d’objets déformables, l’espace des états possibles devient beaucoup plus compliqué.

« Pour les objets rigides, nous pouvons décrire son état avec six nombres : trois nombres pour ses coordonnées XYZ et trois autres nombres pour son orientation », Xingyu Lin, Ph.D. étudiant à la CMU et auteur principal de l’article DiffSkill, a déclaré à TechTalks.

« Cependant, les corps déformables, comme la pâte ou les tissus, ont des degrés de liberté infinis, ce qui rend beaucoup plus difficile la description précise de leurs états. De plus, la façon dont ils se déforment est également plus difficile à modéliser de manière mathématique par rapport aux corps rigides. »

Le développement de simulateurs physiques différentiables a permis l’application de méthodes basées sur le gradient pour résoudre des tâches de manipulation d’objets déformables. Cela contraste avec la tradition apprentissage par renforcement approche qui tente d’apprendre la dynamique de l’environnement et des objets par de pures interactions d’essais et d’erreurs.

DiffSkill a été inspiré par PlasticineLabun simulateur de physique différentiable qui a été présenté à la conférence ICLR en 2021. PlasticineLab a montré que les simulateurs différentiables peuvent aider les tâches à court horizon.

PlasticineLab est un simulateur différentiable basé sur la physique pour les objets déformables.  Il convient à la formation de modèles basés sur le gradient.
PlasticineLab est un simulateur différentiable basé sur la physique pour les objets déformables. Il convient à la formation de modèles basés sur le gradient.

Mais les simulateurs différentiables sont toujours aux prises avec des problèmes à long horizon qui nécessitent plusieurs étapes et l’utilisation d’outils différents. Les systèmes d’IA basés sur des simulateurs différentiables exigent également que l’agent connaisse l’état complet de la simulation et les paramètres physiques pertinents de l’environnement. Ceci est particulièrement limitant pour les applications du monde réel, où l’agent perçoit généralement le monde à travers des données visuelles et sensorielles de profondeur (RVB-D).

« Nous avons commencé à demander si nous pouvions extraire [the steps required to accomplish a task] en tant que compétences et aussi apprendre des notions abstraites sur les compétences afin que nous puissions les enchaîner pour résoudre des tâches plus complexes », a déclaré Lin.

DiffSkill est un cadre dans lequel l’agent IA apprend l’abstraction des compétences à l’aide du modèle physique différentiable et les compose pour accomplir des tâches de manipulation compliquées.

Les travaux antérieurs de Lin étaient axés sur l’utilisation de l’apprentissage par renforcement pour la manipulation d’objets déformables tels que des tissus, des cordes et des liquides. Pour DiffSkill, il a choisi la manipulation de la pâte en raison des défis qu’elle pose.

« La manipulation de la pâte est particulièrement intéressante car elle ne peut pas être facilement réalisée avec la pince du robot, mais nécessite l’utilisation séquentielle de différents outils, ce que les humains savent faire mais ce n’est pas très courant pour les robots », a déclaré Lin.

Une fois formé, DiffSkill peut accomplir avec succès un ensemble de tâches de manipulation de pâte en utilisant uniquement l’entrée RVB-D.

Apprendre des compétences abstraites avec les réseaux de neurones

DiffSkill forme un réseau de neurones pour prédire la faisabilité d'un état cible à partir de l'état initial et des paramètres obtenus à partir d'un simulateur physique différentiable.
DiffSkill forme un réseau de neurones pour prédire la faisabilité d’un état cible à partir de l’état initial et des paramètres obtenus à partir d’un simulateur physique différentiable.

DiffSkill est composé de deux composants clés : un « abstracteur de compétences neuronales » qui utilise les réseaux de neurones pour apprendre des compétences individuelles et un « planificateur » qui compose la compétence pour résoudre des tâches à long horizon.

DiffSkill utilise un simulateur physique différentiable pour générer des exemples de formation pour l’abstracteur de compétences. Ces exemples montrent comment atteindre un objectif à court terme avec un seul outil, comme utiliser un rouleau pour étaler la pâte ou une spatule pour déplacer la pâte.

Ces exemples sont présentés à l’abstracteur de compétences sous forme de vidéos RVB-D. Étant donné une observation d’image, l’abstracteur de compétences doit prédire si l’objectif souhaité est réalisable ou non. Le modèle apprend et ajuste ses paramètres en comparant sa prédiction avec le résultat réel du simulateur physique.

Dans le même temps, DiffSkill forme un auto-encodeur variationnel (VAE) pour apprendre une représentation dans l’espace latent des exemples générés par le simulateur physique. Le VAE encode les images dans un espace de dimension inférieure qui préserve les caractéristiques importantes et rejette les informations qui ne sont pas pertinentes pour la tâche. En transférant l’espace d’image de grande dimension dans l’espace latent, le VAE joue un rôle important en permettant à DiffSkill de planifier sur de longs horizons et de prédire les résultats en observant les données sensorielles.

L’un des enjeux importants de la formation du VAE est de s’assurer qu’il assimile les bonnes fonctionnalités et généralise au monde réel, où la composition des données visuelles est différente de celles générées par le simulateur physique. Par exemple, la couleur du rouleau ou de la table n’est pas pertinente pour la tâche, mais la position et l’angle du rouleau et l’emplacement de la pâte le sont.

Actuellement, les chercheurs utilisent une technique appelée « randomisation de domaine », qui randomise les propriétés non pertinentes de l’environnement d’entraînement telles que l’arrière-plan et l’éclairage, et conserve les caractéristiques importantes telles que la position et l’orientation des outils. Cela rend le VAE plus stable lorsqu’il est appliqué au monde réel.

« Ce n’est pas facile, car nous devons couvrir toutes les variations possibles qui sont différentes entre la simulation et le monde réel [known as the sim2real gap] », a déclaré Lin. « Une meilleure façon est d’utiliser un nuage de points 3D comme représentation de la scène, ce qui est beaucoup plus facile à transférer de la simulation au monde réel. En fait, nous travaillons sur un projet de suivi utilisant un nuage de points comme entrée. »

Planification de tâches d’objets déformables à long horizon

DiffSkill utilise un module de planification pour évaluer différentes combinaisons et séquences de compétences qui peuvent atteindre l'objectif cible.
DiffSkill utilise un module de planification pour évaluer différentes combinaisons et séquences de compétences qui peuvent atteindre l’objectif cible.

Une fois l’abstracteur de compétences formé, DiffSkill utilise le module de planification pour résoudre des tâches à long horizon. Le planificateur doit déterminer le nombre et la séquence des compétences nécessaires pour passer de l’état initial à la destination.

Ce planificateur parcourt les combinaisons possibles de compétences et les résultats intermédiaires qu’elles produisent. L’auto-encodeur variationnel est utile ici. Au lieu de prédire les résultats de l’image complète, DiffSkill utilise le VAE pour prédire le résultat de l’espace latent des étapes intermédiaires vers l’objectif final.

La combinaison des compétences abstraites et des représentations de l’espace latent rend beaucoup plus efficace le calcul d’une trajectoire de l’état initial au but. En fait, les chercheurs n’ont pas eu besoin d’optimiser la fonction de recherche et ont utilisé une recherche exhaustive de toutes les combinaisons.

« Le calcul n’est pas trop important puisque nous planifions sur les compétences et l’horizon n’est pas très long », a déclaré Lin. « Cette recherche exhaustive élimine le besoin de concevoir un croquis pour le planificateur et pourrait conduire à de nouvelles solutions non envisagées par le concepteur de manière plus générale, bien que nous ne l’ayons pas observé dans les tâches limitées que nous avons essayées. De plus, des techniques de recherche plus sophistiquées pourraient également être appliquées.

Selon le document DiffSkill, « l’optimisation peut être effectuée efficacement en environ 10 secondes pour chaque combinaison de compétences sur un seul GPU NVIDIA 2080Ti ».

Préparer la pâte à pizza avec DiffSkill

pizza

Les chercheurs ont testé les performances de DiffSkill par rapport à plusieurs méthodes de base qui ont été appliquées à des objets déformables, notamment deux algorithmes d’apprentissage par renforcement sans modèle et un optimiseur de trajectoire qui n’utilise que le simulateur physique.

Les modèles ont été testés sur plusieurs tâches nécessitant plusieurs étapes et outils. Par exemple, dans l’une des tâches, l’agent IA doit soulever la pâte avec une spatule, la placer sur une planche à découper, et l’étaler avec un rouleau.

Les résultats montrent que DiffSkill est nettement meilleur que les autres techniques pour résoudre des tâches à long horizon et à outils multiples en utilisant uniquement des informations sensorielles. Les expériences montrent que lorsqu’il est bien formé, le planificateur de DiffSkill peut trouver de bons états intermédiaires entre les états initial et objectif et trouver des séquences décentes de compétences pour résoudre des tâches.

Le planificateur de DiffSkill peut prédire les étapes intermédiaires avec une précision impressionnante.
Le planificateur de DiffSkill peut prédire les étapes intermédiaires avec une précision impressionnante.

« L’un des points à retenir est qu’un ensemble de compétences peut fournir une abstraction temporelle très importante, nous permettant de raisonner sur un horizon à long terme », a déclaré Lin. « Cela est également similaire à la façon dont l’homme aborde différentes tâches : penser à différentes abstractions temporelles au lieu de penser quoi faire à chaque seconde suivante. »

Cependant, il existe également des limites à la capacité de DiffSkill. Par exemple, lors de l’exécution de l’une des tâches nécessitant une planification en trois étapes, les performances de DiffSkill se dégradent considérablement (bien qu’elles soient toujours meilleures que les autres techniques). Lin a également mentionné que dans certains cas, le prédicteur de faisabilité produit des faux positifs. Les chercheurs pensent que l’apprentissage d’un meilleur espace latent peut aider à résoudre ce problème.

Les chercheurs explorent également d’autres directions pour améliorer DiffSkill, y compris un algorithme de planification plus efficace qui peut être utilisé pour des tâches à horizon plus long.

Lin espère qu’un jour, il pourra utiliser DiffSkill sur de vrais robots de pizza. « Nous en sommes encore loin. Divers défis émergent du contrôle, du transfert sim2real et de la sécurité. Mais nous sommes maintenant plus confiants pour essayer certaines tâches à long terme », a-t-il déclaré.

Cet article a été initialement publié par Ben Dickson sur TechTalks, une publication qui examine les tendances de la technologie, comment elles affectent notre façon de vivre et de faire des affaires, et les problèmes qu’elles résolvent. Mais nous discutons également du côté pervers de la technologie, des implications les plus sombres des nouvelles technologies et de ce que nous devons surveiller. Vous pouvez lire l’article original ici.






Source link