Fermer

juin 7, 2018

L'IA de DeepMind a maîtrisé Go, maintenant il joue Atari



La société sœur de Google, DeepMind, basée à Londres, a récemment développé une méthode d'apprentissage pour enseigner à l'IA comment jouer à des jeux vidéo. Plutôt que d'alimenter minutieusement les données, ils le laissent tranquille avec quelques vidéos YouTube .

La dernière méthode d'entraînement de DeepMind est conçue pour résoudre un problème auquel l'IA fait face en exploration. AI aspire à peu près à explorer de nouveaux endroits ou à déterminer quel chemin à parcourir. Et les développeurs d'IA luttent pour trouver des moyens de récompenser l'IA dans des environnements où il y a peu à faire. AlphaGo AI de DeepMind, par exemple, a été conçu pour gagner au Go – un jeu avec des règles très spécifiques. Mais quand vous introduisez une IA dans un jeu comme Pitfall ou Montezuma's Revenge deux jeux qui nécessitent une exploration, il est difficile pour une machine de déterminer ce qu'elle est censée faire.

prendre pour acquis notre capacité à prendre des décisions. Si nous jouons à un jeu, il est relativement facile pour nous de trouver la voie à suivre en fonction de ce que nous percevons comme des obstacles. Pour l'IA, le même défi peut être astronomique, selon le livre blanc de l'équipe :

De telles tâches sont pratiquement impossibles en utilisant des méthodes d'exploration naïves et rusées, car le nombre de trajectoires d'action augmente exponentiellement. cadres séparant les récompenses. Par exemple, atteindre la première récompense d'environnement dans MONTEZUMA'S REVENGE prend environ 100 pas d'environnement, ce qui équivaut à 100 (aux 18 puissance) séquences d'action possibles.

Actuellement, les développeurs résolvent ce problème en donnant au AI d'énormes ensembles de données d'images parfaitement formatées. Cette approche n'est pas très utile dans les situations où de tels ensembles de données merveilleusement étiquetés ne sont pas disponibles.

Avec la nouvelle méthode de DeepMind, l'IA prend des images bruyantes et imagine comment les formater en quelque chose dont il peut générer des données. Si vous lui montrez une vidéo d'un humain jouant Pitfall ou Montezuma's Revenge il peut isoler les mouvements qui ont fait le succès de l'humain et les imiter.

Cela permet aux chercheurs d'établir des récompenses (le faire plus rapidement, obtenir plus de points) tout en fournissant simultanément une base de départ pour l'entraînement d'une IA. Et c'est aussi simple que de charger quelques vidéos YouTube dans le réseau de neurones, car cette méthode produit un entraînement unique.

Une fois développée correctement, cette technologie pourrait permettre à un robot d'étudier de nouveaux environnements – comme la surface de Mars – par des séquences de rovers, ou s'entraîner pour un environnement de travail simplement en regardant une vidéo sur YouTube.

Une chose est certaine: si quelqu'un me demande d'enregistrer une vidéo d'orientation pour les robots qui vont me remplacer un jour, ils Je vais avoir une réponse très humaine.




Source link