Une IA surpasse les joueurs humains sur 50 vieux jeux vidéo Atari

À San Francisco, une équipe de chercheurs d’Uber AI Labs a développé un ensemble d’algorithmes d’apprentissage. Le système se révèle meilleur que les humains ou d’autres systèmes d’IA aux jeux vidéo classiques.

Les limites de l’apprentissage par renforcement

Les chercheurs ont publié un article dans la revue Nature. Ils y expliquent en quoi leurs algorithmes diffèrent des autres et pourquoi ils pensent avoir des applications en robotique, en traitement du langage et même en conception de nouveaux médicaments. Les algorithmes d’apprentissage par renforcement apprennent à faire les choses en synthétisant les informations fournies dans un vaste ensemble de données. Ils reconnaissent les modèles et les utilisent pour faire des suppositions sur de nouvelles données. 

C’est ainsi que les algorithmes d’apprentissage par renforcement sont utilisés pour repérer le cancer du poumon aux rayons X. Mais, comme le notent les chercheurs. Avec cette nouvelle recherche, ces algorithmes ont tendance à rencontrer des problèmes lorsqu’ils sont face à des données qui ne correspondent pas aux autres données de l’ensemble. C’est pourquoi de tels systèmes peuvent parfois fournir des résultats incorrects.

Surmonter les problèmes de l’apprentissage par renforcement

Dans ce nouvel effort, les chercheurs ont surmonté ce problème en ajoutant un algorithme qui se souvient de tous les processus utilisés par un algorithme précédent. Ceci,  afin de  tenter de résoudre un problème. Lorsqu’il trouve un point de données qui ne semble pas correct, il retourne à sa carte mémoire et tente un autre procédé

En termes de jeux vidéo, il conserve les captures d’écran pendant qu’il joue et lorsqu’il se retrouve en train de perdre, il revient à un autre point du jeu et tente une autre approche. L’algorithme regroupe également des images qui se ressemblent pour déterminer à quel moment il doit revenir si les choses tournent mal.

Un système 85,5% plus performant 

Les chercheurs ont testé leur nouvelle approche en ajoutant des règles de jeu et un objectif : marquer le plus de points possible et essayer d’obtenir un score plus élevé à chaque fois. Ils ont ensuite utilisé leur système pour jouer à 55 jeux Atari qui, au fil du temps, sont devenus des références pour tester les systèmes d’IA. Le nouveau système a battu les autres systèmes d’IA dans 85,5% du temps

Il a particulièrement bien fonctionné avec le jeu Montezuma’s Revenge, obtenant un score plus élevé que tout autre système d’IA et battant le record d’un humain. Les chercheurs pensent que leur algorithme pourrait être porté vers d’autres applications telles que le traitement d’images ou de langage par des robots.