minecraft vpt openai

VPT : la nouvelle IA OpenAI a appris Minecraft en 70 000h sur YouTube

La nouvelle intelligence artificielle VPT d’OpenAI a appris à jouer au jeu vidéo Minecraft après un entraînement sur 70 000 heures de vidéo YouTube. Cette approche innovante pourrait offrir de nouvelles possibilités pour l’IA…

On distingue deux types d’amateurs de jeux vidéo : ceux qui y jouent, et ceux qui regardent les autres y jouer en streaming. Toutefois, la nouvelle intelligence artificielle d’OpenAI parvient à réconcilier les deux clans…

Déjà en 2020, OpenAI marquait les esprits avec GPT-3. Après avoir été entraîné sur des millions de textes extraits d’internet, cet algorithme de Machine Learning est capable de produire de véritables phrases.

Par la suite, la firme a également créé le buzz avec DALL-E en 2021 et son successeur DALL-E 2 en 2022. Cette IA dérivée de GPT-3 a été entraînée à la fois sur du texte et des images, lui permettant de générer ses propres visuels réalistes.

Ce 27 juin 2022, OpenAI dévoile sa dernière intelligence artificielle devenue experte au jeu Minecraft après avoir visionné 70 000 heures de vidéo mises en ligne sur YouTube par des joueurs…

La première IA lâchée dans le jeu comme un joueur humain

De nombreux algorithmes d’IA ont été entraînés à jouer au jeu Minecraft par le passé. Toutefois, ils étaient mis à l’épreuve dans une version simplifiée du jeu.

De son côté, la nouvelle IA d’OpenAI, VPT (Video Pre-Training), joue à la même version du jeu que les humains et utilise des commandes standard au combo clavier/souris.

Dans un billet publié sur son blog, OpenAI explique que l’algorithme a d’abord appris les compétences les plus basiques de Minecraft : couper des arbres, fabriquer des planchers, fabriquer une table…

L’équipe de chercheurs a aussi observé l’IA tenter de nager, de chasser, de cuisiner et de sauter sur les piliers. En bref, l’algorithme s’est comporté à la manière d’un joueur humain découvrant le jeu.

Selon OpenAI, « à notre connaissance, il n’y a pas d’étude publiée sur une IA évoluant dans l’espace d’action humain complet, inaltéré, incluant la gestion d’inventaire en glisser-déposer et la fabrication d’objets ».

L’IA progresse rapidement grâce au Reinforcement Learning sur 720 GPU

Grâce à l’entrainement sur un ensemble de données spécifique, aussi appelé « fine-tuning », le modèle a ensuite effectué ces tâches avec plus de précision. Par ailleurs, il a ensuite commencé à fabriquer des outils de bois et de pierre et des abris basiques, à explorer les villages et à chercher des coffres au trésor.

L’IA a ensuite été entraînée via la technique de l’apprentissage par renforcement ou Reinforcement Learning. Cette méthode lui a permis d’apprendre à fabriquer une pioche en diamant, ce qui prend généralement 20 minutes aux joueurs humains.

Ce résultat est convaincant, car l’intelligence artificielle a longtemps éprouvé des difficultés face au gameplay très libre de Minecraft.

À l’inverse, l’IA a surpassé l’humain aux jeux d’échecs et de Go grâce à l’apprentissage par renforcement. Pour cause, ces jeux ont des objectifs clairs vers lesquels la progression peut être mesurée. L’algorithme peut être récompensé à chaque progrès effectué vers l’objectif.

Dans Minecraft, les objectifs peuvent être multiples, la progression est moins linéaire, et les algorithmes d’apprentissage par renforcement sont d’habitude pris au dépourvu.

En 2019, lors de la compétition MineRL entre développeurs d’IA, aucune des 660 IA candidates n’a réussi à atteindre l’objectif du concours : miner du diamant. Notons toutefois que les participants devaient se limiter à un seul GPU Nvidia et 1000 heures de vidéo de gameplay pour entraîner leurs algorithmes.

L’intention des organisateurs de la compétition était de montrer que la créativité était plus importante que la puissance de calcul. Toutefois, la nouvelle IA d’OpenAI a été entraînée sur 720 GPU et 70 000 heures de vidéo. C’est la raison pour laquelle ses performances sont largement supérieures…

70 000 heures de vidéo YouTube en guise de données d’entraînement

Pour l’entraînement de cette nouvelle IA, OpenAI a utilisé la même approche que pour GPT-3 et DALL-E. L’algorithme a été entraîné sur un ensemble de données massif constitué de contenu créé par l’humain.

Toutefois, cette réussite ne repose pas uniquement sur l’immense volume de données ou la puissance de calcul colossale utilisés. De manière générale, les extraits vidéo bruts ne sont pas aussi efficaces pour les IA de type comportementales que pour les générateurs de contenu comme GPT et DALL-E.

Ce type de vidéo montre ce que les personnes font, mais n’explique pas comment. Pour associer les images à l’action, l’algorithme a donc besoin d’étiquettes.

Par exemple, si l’extrait vidéo montre un joueur collectant des objets, une étiquette  » inventaire  » sera nécessaire pour que l’algorithme associe les images à la catégorie d’actions correspondante. Il faut aussi lui indiquer quelle touche du clavier permet d’ouvrir l’inventaire.

Bien évidemment, il n’est pas envisageable d’étiqueter manuellement chaque image de 70 000 heures de vidéo. Les chercheurs ont donc fait appel à des sous-traitant sur Upwork pour enregistrer et étiqueter les actions les plus basiques de Minecraft.

Ils ont ensuite utilisé 2000 heures de vidéo pour apprendre à un second algorithme dénommé IDM comment étiqueter les vidéos Minecraft. C’est ce deuxième algorithme qui s’est chargé d’annoter les 70 000 heures de contenu YouTube.

Cette approche pourrait permettre à l’intelligence artificielle d’apprendre une large variété de nouvelles compétences en regardant des vidéos sur internet. Les chercheurs d’OpenAI imaginent par exemple l’utilisation du VPT pour apprendre aux ordinateurs à exécuter toutes sortes d’action sur commande vocale.

Un processus beaucoup trop cher pour les développeurs IA

Malheureusement, à l’heure actuelle, cette méthode d’entraînement est hors de portée des simples développeurs IA. Outre le coût des 720 GPU Nvidia et de leur consommation d’énergie, les sous-traitants Upwork chargés d’étiqueter les vidéos ont coûté 160 000 dollars.

Et pourtant, ce modèle d’IA est relativement petit. Il n’a que quelques centaines de millions de paramètres, contre plusieurs centaines de milliards pour GPT-3.

Il semble donc urgent de trouver de nouvelles approches ingénieuses limitant les besoins de données et de puissance de calcul. Alors que l’IA a besoin de 70 000 heures de vidéo, une ou deux vidéos suffisent à un enfant pour apprendre les bases du jeu.

Quoi qu’il en soit, OpenAI a mis les données, l’environnement et l’algorithme de VPT en open-source. Un partenariat avec MineRL est noué, et les participants au concours de cette année pourront utiliser, modifier et paramétrer librement cette IA…

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Pin It on Pinterest