Fermer

novembre 7, 2021

L'apprentissage par renforcement fait des coéquipiers d'IA merdiques dans les jeux coopératifs


Cet article fait partie de nos revues d'articles de recherche sur l'IAune série d'articles qui explorent les dernières découvertes en matière d'intelligence artificielle.

L'intelligence artificielle a prouvé que les jeux de société et vidéo compliqués ne sont plus le domaine exclusif de l'esprit humain. Des échecs à Go à StarCraft, les systèmes d'IA qui utilisent des algorithmes d'apprentissage par renforcement ont surpassé les champions du monde humains ces dernières années.

Mais malgré les performances individuelles élevées des agents RL, ils peuvent devenir des coéquipiers frustrants lorsqu'ils sont associés à des joueurs humains, selon un étude réalisée par des chercheurs en IA du MIT Lincoln Laboratory. L'étude, qui impliquait une coopération entre des humains et des agents d'IA dans le jeu de cartes Hanabi, montre que les joueurs préfèrent les systèmes d'IA classiques et prévisibles basés sur des règles aux systèmes RL complexes.

Les résultats, présentés dans un article publié le arXivmettent en évidence certains des défis sous-explorés de l'application de l'apprentissage par renforcement à des situations réelles et peuvent avoir des implications importantes pour le développement futur des systèmes d'IA destinés à coopérer avec les humains.

Trouver l'écart dans l'apprentissage par renforcement[

19659006]L'apprentissage par renforcement en profondeurl'algorithme utilisé par les robots de jeu à la pointe de la technologie, commence par fournir à un agent un ensemble d'actions possibles dans le jeu, un mécanisme pour recevoir les commentaires de l'environnement, et un objectif à poursuivre. Ensuite, à travers de nombreux épisodes de jeu, l'agent RL passe progressivement de la prise d'actions aléatoires à l'apprentissage de séquences d'actions qui peuvent l'aider à maximiser son objectif. joueurs. Plus récemment, les chercheurs ont pu développer des agents RL capables d'apprendre des jeux à partir de zéro grâce à un jeu personnel pur sans intervention humaine .

Dans leur étude, les chercheurs du MIT Lincoln Laboratory étaient intéressés à découvrir si un programme d'apprentissage par renforcement qui surpasse les humains pouvait devenir un collègue fiable pour les humains.

« À un niveau très élevé, ce travail a été inspiré par la question : quelles lacunes technologiques existent qui empêchent l'apprentissage par renforcement (RL) d'être appliqué à de vrais -des problèmes mondiaux, pas seulement des jeux vidéo ? » Le Dr Ross Allen, chercheur en IA au Lincoln Laboratory et co-auteur de l'article, a déclaré à TechTalks. « Bien que de nombreuses lacunes technologiques de ce type existent (par exemple, le monde réel est caractérisé par une incertitude/une observabilité partielle, une rareté des données, des objectifs ambigus/nuancés, des délais de prise de décision disparates, etc.), nous avons identifié le besoin de collaborer avec les humains en tant que lacune technologique clé pour l'application de la RL dans le monde réel. "

Jeux accusatoires contre jeux coopératifs