Fermer

août 23, 2018

Les chercheurs ont donné de la curiosité à AI et ont joué aux jeux vidéo toute la journée



Si vous apprenez à un robot à pêcher, il va probablement attraper du poisson. Cependant, si vous lui apprenez à être curieux, il lui suffira de regarder la télévision et de jouer à des jeux vidéo toute la journée.

Chercheurs de Open AI – le groupe de réflexion sur la singularité – a récemment publié un article de recherche détaillant une étude à grande échelle sur l'apprentissage par curiosité. Dans ce document, ils montrent comment des modèles d'IA formés sans «récompenses extrinsèques» peuvent développer et apprendre des compétences.

Aimez-vous les bons gadgets?

Ces gadgets sympas et cool?

Au fond, ils ont compris comment faire en sorte que l'IA fasse des choses sans lui dire explicitement quels sont ses objectifs. Selon le livre blanc de l'équipe:

Ce n'est pas aussi étrange que cela puisse paraître. Les psychologues du développement parlent de la motivation intrinsèque (c'est-à-dire de la curiosité) comme principal moteur des premiers stades de développement: les bébés semblent utiliser une exploration sans but pour acquérir des compétences utiles plus tard dans la vie. Il y a plein d'autres exemples, de la lecture de Minecraft à la visite de votre zoo local, où aucune récompense extrinsèque n'est requise.

L'idée ici est que si nous pouvons obtenir des machines pour explorer des environnements sans récompenses codées être beaucoup plus proche des machines véritablement autonomes. Cela pourrait avoir des implications incroyables pour des choses telles que le développement de robots de sauvetage, ou explorant l'espace .

Pour étudier les effets de l'apprentissage profond intrinsèquement motivé, les chercheurs se sont tournés vers les jeux vidéo. Ces environnements sont parfaitement adaptés à la recherche en IA en raison de leurs règles et récompenses inhérentes. Les développeurs peuvent dire à AI de jouer, par exemple, Pong et lui donner des conditions spécifiques telles que «ne pas perdre», ce qui le conduirait à prioriser les points de notation (théoriquement).

Les expériences dans les environnements de données Atari, Super Mario Bros. et Pong ont montré que les agents sans objectifs étaient capables de développer des compétences et un apprentissage, bien que parfois les résultats soient un peu intéressants.

L'agent axé sur la curiosité définit ses propres règles. C'est motivé pour expérimenter de nouvelles choses. Ainsi, par exemple, lorsqu’il joue Breakout – le classique jeu de casse-briques – il fonctionne bien car il ne veut pas s’ennuyer:

Plus les briques sont frappées Plus le motif des briques restantes devient compliqué, plus l'agent est curieux de l'explorer davantage et, par conséquent, de collecter des points en tant que bi-produit. De plus, lorsque l'agent manque de vie, les briques reprennent une structure uniforme qui a été vue plusieurs fois par l'agent et est donc très prévisible, de sorte que l'agent essaie de rester en vie pour être curieux en évitant la réinitialisation par la mort .

L'IA a franchi 11 niveaux de Super Mario Bros simplement par curiosité, indiquant qu'avec suffisamment de sessions d'entraînement sans but, une IA pouvait effectuer des performances exceptionnelles.

dans le quartier artificiellement intelligent, cependant, les machines curieuses souffrent des mêmes problèmes que les curieux: elles sont facilement distraites. Lorsque les chercheurs ont opposé deux robots curieux Pong ils ont décidé de voir combien de volées ils pouvaient réaliser ensemble.

L'équipe de recherche a également testé une expérience de pensée commune appelée "Problème de télévision bruyante" Selon le livre blanc de l’équipe:

L’idée est que les sources locales d’entropie dans un environnement comme une télévision qui change de chaîne au hasard d’une action doivent être une attraction irrésistible pour notre agent. Nous prenons cette expérience de pensée à la lettre et ajoutons un téléviseur au labyrinthe avec une action pour changer le canal.

Il s'avère qu'ils avaient raison, il y avait une baisse significative de la performance quand l'IA a essayé de courir un labyrinthe et a trouvé un TV virtuelle.

Ces curieux agents d'apprentissage automatique semblent être l'IA la plus humaine que nous ayons jamais rencontrée. Que dit-on de nous?

H / t: Quartz




Source link