L'apprentissage par renforcement fait des coéquipiers d'IA merdiques dans les jeux coopératifs
Cet article fait partie de nos revues d'articles de recherche sur l'IAune série d'articles qui explorent les dernières découvertes en matière d'intelligence artificielle.
L'intelligence artificielle a prouvé que les jeux de société et vidéo compliqués ne sont plus le domaine exclusif de l'esprit humain. Des échecs à Go à StarCraft, les systèmes d'IA qui utilisent des algorithmes d'apprentissage par renforcement ont surpassé les champions du monde humains ces dernières années.
Mais malgré les performances individuelles élevées des agents RL, ils peuvent devenir des coéquipiers frustrants lorsqu'ils sont associés à des joueurs humains, selon un étude réalisée par des chercheurs en IA du MIT Lincoln Laboratory. L'étude, qui impliquait une coopération entre des humains et des agents d'IA dans le jeu de cartes Hanabi, montre que les joueurs préfèrent les systèmes d'IA classiques et prévisibles basés sur des règles aux systèmes RL complexes.
Les résultats, présentés dans un article publié le arXivmettent en évidence certains des défis sous-explorés de l'application de l'apprentissage par renforcement à des situations réelles et peuvent avoir des implications importantes pour le développement futur des systèmes d'IA destinés à coopérer avec les humains.
Trouver l'écart dans l'apprentissage par renforcement[ 19659006]L'apprentissage par renforcement en profondeurl'algorithme utilisé par les robots de jeu à la pointe de la technologie, commence par fournir à un agent un ensemble d'actions possibles dans le jeu, un mécanisme pour recevoir les commentaires de l'environnement, et un objectif à poursuivre. Ensuite, à travers de nombreux épisodes de jeu, l'agent RL passe progressivement de la prise d'actions aléatoires à l'apprentissage de séquences d'actions qui peuvent l'aider à maximiser son objectif. joueurs. Plus récemment, les chercheurs ont pu développer des agents RL capables d'apprendre des jeux à partir de zéro grâce à un jeu personnel pur sans intervention humaine .
Dans leur étude, les chercheurs du MIT Lincoln Laboratory étaient intéressés à découvrir si un programme d'apprentissage par renforcement qui surpasse les humains pouvait devenir un collègue fiable pour les humains.
« À un niveau très élevé, ce travail a été inspiré par la question : quelles lacunes technologiques existent qui empêchent l'apprentissage par renforcement (RL) d'être appliqué à de vrais -des problèmes mondiaux, pas seulement des jeux vidéo ? » Le Dr Ross Allen, chercheur en IA au Lincoln Laboratory et co-auteur de l'article, a déclaré à TechTalks. « Bien que de nombreuses lacunes technologiques de ce type existent (par exemple, le monde réel est caractérisé par une incertitude/une observabilité partielle, une rareté des données, des objectifs ambigus/nuancés, des délais de prise de décision disparates, etc.), nous avons identifié le besoin de collaborer avec les humains en tant que lacune technologique clé pour l'application de la RL dans le monde réel. "
Jeux accusatoires contre jeux coopératifs
Des recherches récentes appliquent principalement l'apprentissage par renforcement aux jeux solo (par exemple, Atari Breakout) ou des jeux accusatoires (par exemple, StarCraft, Go), où l'IA est opposée à un joueur humain ou à un autre bot de jeu.
« Nous pensons que l'apprentissage par renforcement est bien adapté pour résoudre les problèmes sur les humains. -Collaboration IA pour des r similaires raisons pour lesquelles RL a réussi dans la compétition humaine-IA », a déclaré Allen. "Dans les domaines compétitifs, RL a réussi parce qu'il a évité les préjugés et les hypothèses sur la façon dont un jeu devrait être joué, au lieu d'apprendre tout cela à partir de zéro."
En fait, dans certains cas, les systèmes de renforcement ont réussi à pirater les jeux. et trouvez des astuces qui ont dérouté même les joueurs humains les plus talentueux et expérimentés. Un exemple célèbre est une décision prise par AlphaGo de DeepMind dans son affrontement contre le champion du monde de Go Lee Sedol. Les analystes ont d'abord pensé que cette décision était une erreur car elle allait à l'encontre des intuitions des experts humains. Mais le même mouvement a fini par inverser la tendance en faveur du joueur AI et vaincre Sedol. Allen pense que le même genre d'ingéniosité peut entrer en jeu lorsque RL est associé à des humains. « systèmes experts basés sur des règles », a déclaré Allen.
Pour leurs expériences, les chercheurs ont choisi Hanabiun jeu de cartes dans lequel deux à cinq joueurs doivent coopérer pour jouer leurs cartes dans un ordre spécifique. Hanabi est particulièrement intéressant car bien que simple, c'est aussi un jeu de pleine coopération et d'informations limitées. Les joueurs doivent tenir leurs cartes à l'envers et ne peuvent pas voir leurs visages. Ainsi, chaque joueur peut voir les faces des cartes de ses coéquipiers. Les joueurs peuvent utiliser un nombre limité de jetons pour se fournir des indices sur les cartes qu'ils détiennent. Les joueurs doivent utiliser les informations qu'ils voient sur les mains de leurs coéquipiers et les indices limités qu'ils connaissent sur leur propre main pour développer une stratégie gagnante.
« Dans la poursuite de problèmes du monde réel, nous devons commencer simplement », a déclaré Allen . « Ainsi, nous nous concentrons sur le jeu collaboratif de référence de Hanabi. »
Ces dernières années, plusieurs équipes de recherche ont exploré le développement de bots d'IA pouvant jouer à Hanabi. Certains de ces agents utilisent l'IA symboliqueoù les ingénieurs fournissent les règles de jeu au préalable, tandis que d'autres utilisent l'apprentissage par renforcement.
Les systèmes d'IA sont évalués en fonction de leurs performances en self-play (où l'agent joue avec une copie de lui-même), le jeu croisé (où l'agent est associé à d'autres types d'agents) et le jeu humain (l'agent coopère avec un humain).
"Le jeu croisé avec les humains, appelé jeu humain, est d'une importance particulière car il mesure l'humain- l'équipe de machines et constitue la base des expériences de notre article », écrivent les chercheurs. système en auto-jeu, et Other-Playun Hanabi bot qui s'est classé le plus haut dans le jeu croisé et le jeu humain parmi les algorithmes RL.
"Ce travail étend directement les travaux antérieurs sur RL pour la formation des agents Hanabi. En particulier, nous étudions l'agent RL ‘Other Play’ du laboratoire de Jakob Foerster », a déclaré Allen. « Cet agent a été formé de telle manière qu'il est particulièrement bien adapté pour collaborer avec d'autres agents qu'il n'avait pas rencontrés lors de la formation. Il avait produit des performances de pointe dans Hanabi lorsqu'il était associé à d'autres IA qu'il n'avait pas rencontrées pendant la formation. parties de Hanabi avec un coéquipier IA. Les joueurs ont été exposés à la fois à SmartBot et à Other-Play, mais n'ont pas été informés de l'algorithme qui fonctionnait dans les coulisses.
Les chercheurs ont évalué le niveau de coopération homme-IA sur la base de mesures objectives et subjectives. Les métriques objectives incluent les scores, les taux d'erreur, etc. Les métriques subjectives incluent l'expérience des joueurs humains, y compris le niveau de confiance et de confort qu'ils ressentent envers leur coéquipier IA, et leur capacité à comprendre les motivations de l'IA et à prédire son comportement.
Il n'y avait pas de différence significative dans la performance objective des deux agents d'IA. Mais les chercheurs s'attendaient à ce que les joueurs humains aient une expérience subjective plus positive avec Other-Play, puisqu'il avait été formé pour coopérer avec d'autres agents que lui-même.
« Nos résultats nous ont surpris en raison de la forte réaction des participants humains à faire équipe avec l'agent Autre jeu. En bref, ils l'ont détesté », a déclaré Allen.
Selon les enquêtes auprès des participants, les joueurs les plus expérimentés Hanabi avaient une moins bonne expérience avec l'algorithme Other-Play RL par rapport à l'algorithme basé sur des règles. Agent SmartBot. L'un des points clés du succès dans Hanabi est l'habileté à fournir des conseils subtils aux autres joueurs. Par exemple, disons que la carte « un des carrés » est posée sur la table et que votre coéquipier tient les deux carrés dans sa main. En pointant la carte et en disant « c'est un deux » ou « c'est un carré », vous dites implicitement à votre coéquipier de jouer cette carte sans lui donner toutes les informations sur la carte. Un joueur expérimenté comprendrait immédiatement l'indice. Mais fournir le même type d'informations au coéquipier de l'IA s'avère beaucoup plus difficile. papier. Un autre a dit : « À ce stade, je ne sais pas à quoi cela sert. . Cela fait d'Other-Play un coéquipier optimal pour les algorithmes d'IA qui ne faisaient pas partie de son régime d'entraînement. Mais il a encore des hypothèses sur les types de coéquipiers qu'il rencontrera, notent les chercheurs.
« Notamment, [Other-Play] suppose que les coéquipiers sont également optimisés pour une coordination sans tir. En revanche, les joueurs humains Hanabi n'apprennent généralement pas avec cette hypothèse. L'établissement de conventions d'avant-match et les examens d'après-match sont des pratiques courantes pour les joueurs humains Hanabice qui rend l'apprentissage humain plus proche d'une coordination à quelques coups », notent les chercheurs dans leur article.
Implications pour l'avenir. Systèmes d'IA
« Nos résultats actuels prouvent que l'exécution objective des tâches d'une IA à elle seule (ce que nous appelons « auto-jeu » et « jeu croisé » dans l'article) peut ne pas être corrélée à la confiance et aux préférences humaines lors de la collaboration avec cette IA », a déclaré Allen. « Cela soulève la question : quelles métriques objectives sont en corrélation avec les préférences humaines subjectives ? Compte tenu de l'énorme quantité de données nécessaires pour former des agents basés sur RL, il n'est pas vraiment tenable de s'entraîner avec des humains dans la boucle. Par conséquent, si nous voulons former des agents d'IA qui sont acceptés et appréciés par les collaborateurs humains, nous devons probablement trouver des fonctions objectives pouvant être formées qui peuvent agir comme substituts ou être fortement corrélées avec les préférences humaines. »
Pendant ce temps, Allen met en garde contre extrapoler les résultats de l'expérience Hanabi à d'autres environnements, jeux ou domaines qu'ils n'ont pas pu tester. Le document reconnaît également certaines des limites des expériences, auxquelles les chercheurs s'efforcent de remédier à l'avenir. Par exemple, le groupe de sujets était petit (29 participants) et biaisé vers des personnes compétentes en Hanabice qui implique qu'elles avaient des attentes comportementales prédéfinies de la part de leur coéquipier IA et étaient plus susceptibles d'avoir une expérience négative avec le comportement excentrique de l'agent RL.
Néanmoins, les résultats peuvent avoir des implications importantes pour l'avenir de la recherche sur l'apprentissage par renforcement.
« Si les agents RL de pointe ne peuvent même pas faire un collaborateur acceptable dans un jeu aussi contraint et de portée étroite que Hanabi ; devrions-nous vraiment nous attendre à ce que les mêmes techniques de RL « fonctionnent » lorsqu'elles sont appliquées à des jeux plus compliqués, nuancés et conséquents et à des situations du monde réel ? » dit Allen. « Il y a beaucoup de buzz sur l'apprentissage par renforcement dans les domaines technologiques et universitaires ; et à juste titre. Cependant, je pense que nos résultats montrent que les performances remarquables des systèmes RL ne devraient pas être considérées comme acquises dans toutes les applications possibles. d'une collaboration étroite avec l'homme. Mais les résultats des travaux effectués au MIT Lincoln Laboratory suggèrent le contraire, du moins étant donné l'état actuel de l'art, dit Allen.
« Nos résultats semblent impliquer que beaucoup plus de travail théorique et appliqué est nécessaire avant l'apprentissage basé sur l'apprentissage. les agents seront des collaborateurs efficaces dans des situations compliquées comme les interactions homme-robot », a-t-il déclaré. ils affectent notre façon de vivre et de faire des affaires, et les problèmes qu'ils résolvent. Mais nous discutons également du côté pervers de la technologie, des implications les plus sombres des nouvelles technologies et de ce que nous devons rechercher. Vous pouvez lire l'article original ici.
Source link