Fermer

octobre 8, 2019

L'importance de l'apprentissage par renforcement


Il y a quelques années, BBC Earth a mis en avant un test de mémoire effectué par un chimpanzé nommé Ayumu . Le chimpanzé affichait les caractéristiques de l'apprentissage automatique (ML) lorsqu'il affichait les nombres de 1 à 9 dans un ordre aléatoire sur un écran et était capable de se rappeler correctement de la séquence lorsque les numéros disparaissaient presque 90% du temps. Ce test est significatif, car le sujet humain n'a identifié qu'une seule fois l'ordre des numéros correct. Cela signifie-t-il que nous ne pourrons jamais rivaliser avec l'IA? Oui c'est correct. Cependant, nous n'avons pas besoin de rivaliser avec l'IA. Ce scénario avec le chimpanzé a quelque chose à rappeler au chimpanzé: il a fallu du temps pour apprendre comment la séquence de chiffres fonctionne de 1 à 9. Ainsi, si les numéros sont échangés contre des lettres AZ, le chimpanzé aurait besoin de plus de temps et de formation. , alors que les sujets humains pourraient s’adapter instantanément.

Si vous regardez la vidéo, vous remarquerez que le chimpanzé reçoit une récompense chaque fois qu’il choisit la bonne séquence dans la machine. C'est ce qu'on appelle l'apprentissage par renforcement (RL). C’est une technique de calcul de la ML qui permet à la machine de choisir la bonne réponse parmi les options qui lui sont données. Les exemples incluent DeepMind de Google apprenant un jeu vidéo Atari et AlphaGo AI battant le meilleur joueur humain du monde que j'ai couvert dans mes vlogs .

. Renforcement L'apprentissage permet à l'IA de jouer à des jeux

Les dernières avancées en matière de ML permettent aux agents d'intelligence artificielle d'interagir avec des entrées sensorielles telles que la vision et la parole, ce qui fournit une large gamme d'applications pour RL. Si vous pensez à Atari, il existe plusieurs jeux tels que Breakout, Space Invader et Seaquest. Chacun de ces jeux a une manière unique de jouer au jeu. Deep RL de DeepMind a joué à ces jeux seul plusieurs fois pour apprendre à jouer. Par exemple, Space Invaders est un jeu de tir fixe dans lequel le joueur contrôle un canon laser en le déplaçant horizontalement au bas de l'écran et en tirant sur des extraterrestres décroissants. Les étrangers peuvent se déplacer dans toutes les directions. Quand DeepMind a été invité à jouer à ce jeu, il a simplement été pointé sur 2 zones de l'écran: la zone de calcul des scores et la zone indiquant que le jeu a été perdu. À partir de là, Deep RL a joué le jeu et renforcé les points. En peu de temps, il a maîtrisé le jeu et a été capable de le jouer avec des techniques créatives lui-même.

Semblable à Atari, Alpha Go s’est adapté aux mouvements en jouant plusieurs fois et constamment récompensé lorsqu’il faisait les bons choix. En fait, quand Alpha Go Zero a été publié, il a appris Go and Chess par lui-même en jouant et en renforçant contre son prédécesseur, Alpha Go, en l'espace de 3 jours. Après trois jours d’entraînement, Alpha Go Zero a battu Alpha Go dans 100 matchs consécutifs avec des mouvements créatifs auxquels les autres joueurs n’avaient jamais pensé.

Agent RL et environnements

RL dispose d’un agent et d’un environnement. Agent est ce que vous construisez en utilisant votre base de code et l'environnement est la situation dans laquelle vous exécutez RL. En outre, RL a deux types d’environnements et d’apprentissage: l’apprentissage épisodique et l’apprentissage continu. L’apprentissage épisodique est le moment où le calcul a un début et une fin par rapport à un état continu n’a pas de fin et continue jusqu’à ce que la force soit arrêtée Dans l'apprentissage épisodique, la récompense sera évaluée et analysée à la fin de chaque épisode et sera améliorée lors de la prochaine exécution de l'épisode. Cependant, en apprentissage continu, la récompense sera évaluée et les modèles RL seront améliorés en permanence.

Complications de l'apprentissage par renforcement

Pour identifier le cas d'utilisation et prendre les mesures appropriées, RL a besoin de grands volumes de jeux de données de formation étiquetés. . De plus, la qualité des jeux de données fournis pour l'étiquetage devrait être bonne pour éviter tout biais. La différence entre un algorithme tel que l'apprentissage supervisé (SL) est que les performances de SL peuvent être suivies pendant l'évaluation, la formation et la validation à l'aide de jeux de données. Cependant, étant donné le caractère automatisé de la liste des tâches, il est difficile de suivre les progrès accomplis.




Source link