La nouvelle IA de DeepMind exploite les jeux pour améliorer les algorithmes fondamentaux

DeepMind a appliqué sa maîtrise des jeux à un métier plus sérieux : les fondements de l’informatique.
La filiale de Google a dévoilé aujourd’hui AlphaDev, un IA système qui découvre de nouveaux algorithmes fondamentaux. Selon DeepMind, les algorithmes qu’il a découverts surpassent ceux perfectionnés par des experts humains au fil des décennies.
Le laboratoire basé à Londres a de grandes ambitions pour le projet. Alors que la demande de calcul augmente et que les puces de silicium approchent de leurs limites, les algorithmes fondamentaux devra devenir exponentiellement plus efficace. En améliorant ces processus, DeepMind vise à transformer l’infrastructure du monde numérique.
Le premier objectif de cette mission est algorithmes de tri, qui sont utilisés pour ordonner les données. Sous les couvertures de nos appareils, ils déterminent tout, des classements de recherche aux recommandations de films.
Pour améliorer leurs performances, AlphaDev a exploré les instructions d’assemblage, qui sont utilisées pour créer du code binaire pour les ordinateurs. Après une recherche exhaustive, le système a découvert un tri algorithme qui a surpassé les indices de référence précédents.
Pour trouver la combinaison gagnante, DeepMind a dû revisiter les exploits qui l’ont rendu célèbre : gagner des jeux de société.
Jouer le système
DeepMind s’est fait un nom dans les jeux. En 2016, l’entreprise a fait la une des journaux lorsque son programme d’IA vaincu un champion du monde de Go, un jeu de société chinois méchamment compliqué.
Après la victoire, DeepMind a construit un système plus polyvalent, AlphaZero. À l’aide d’un processus d’essais et d’erreurs appelé apprentissage par renforcement, le programme maîtrisait non seulement le go, mais aussi les échecs et le shogi (alias « échecs japonais »).
AlphaDev – le nouveau constructeur d’algorithmes – est basé sur AlphaZero. Mais l’influence du jeu s’étend au-delà du modèle sous-jacent.
« Nous le pénalisons pour avoir fait des erreurs.
DeepMind a formulé la tâche d’AlphaDev comme un jeu solo. Pour gagner la partie, le système devait construire un nouvel algorithme de tri amélioré.
Le système a joué ses mouvements en sélectionnant des instructions d’assemblage à ajouter à l’algorithme. Pour trouver les instructions optimales, le système devait sonder une grande quantité de combinaisons d’instructions. Selon DeepMind, le nombre était similaire au nombre de particules dans l’univers. Et un seul mauvais choix pourrait invalider tout l’algorithme.
Après chaque mouvement, AlphaDev a comparé la sortie de l’algorithme avec les résultats attendus. Si la sortie était correcte et que les performances étaient efficaces, le système recevait une « récompense » – un signal indiquant qu’il fonctionnait bien.
« Nous le pénalisons pour avoir fait des erreurs, et nous le récompensons pour avoir trouvé de plus en plus de ces séquences qui sont triées correctement », a déclaré Daniel Mankowitz, le chercheur principal, à TNW.
Comme vous l’avez probablement deviné, AlphaDev a gagné la partie. Mais le système n’a pas seulement trouvé un programme correct et plus rapide. Il a également découvert de nouvelles approches de la tâche.
Les nouveaux algorithmes contenaient des séquences d’instructions qui enregistraient une seule instruction à chaque fois qu’elles étaient appliquées. Surnommés « mouvements d’échange et de copie », ils ont servi de raccourcis vers d’autres efficacités algorithmiques.
DeepMind compare l’approche à un autre moment dans les jeux : le légendaire « coup 37 », dont une IA système joué contre le champion de Go Lee Sedol.
L’étrange mouvement a choqué les experts humains, qui pensaient que la machine avait fait une erreur. Mais ils ont vite découvert que le programme avait un plan.
« Cela a fini par non seulement gagner le match, mais aussi influencer les stratégies que les joueurs professionnels de Go ont commencé à utiliser », a déclaré Mankowitz.
Cette victoire marquait la première fois que l’IA battait un professionnel de Go de premier plan – un jalon que les experts avaient prédit dans une autre décennie.
Trois ans plus tard, Lee a pris sa retraite de la compétition professionnelle de Go. Il a attribué la décision aux capacités de ses rivaux de l’IA.
« Même si je deviens le numéro un, il y a une entité qui ne peut pas être vaincue », a-t-il déclaré.
Trier l’informatique
Les algorithmes de tri d’AlphaDev sont désormais open-source dans le bibliothèque C++ principale, où il est disponible pour des millions de développeurs et d’entreprises. Selon DeepMind, il s’agit du premier changement apporté à cette partie de la bibliothèque de tri depuis plus d’une décennie – et du premier algorithme conçu par apprentissage par renforcement pour rejoindre la bibliothèque.
Après le jeu de tri, AlphaDev a commencé à jouer avec le hachage, qui est utilisé pour récupérer, stocker et compresser les données. Le résultat a été un autre algorithme amélioré, qui a maintenant été libéré dans la bibliothèque open-source Abseil. DeepMind estime qu’il est utilisé des milliards de fois par jour.
En fin de compte, le laboratoire envisage AlphaDev comme une étape vers la transformation de l’ensemble de l’écosystème informatique. Et tout a commencé en jouant à des jeux de société.
Source link