Les intelligences artificielles de DeepMind et Meta battent désormais les joueurs humains aux jeux de plateau stratégiques Stratego et Diplomacy. C’est un nouveau cap franchi pour la technologie, mais certains experts craignent un risque de graves dérives…

Depuis de nombreuses années, l’intelligence artificielle surpasse l’humain au jeu d’échecs et au jeu de Go. Toutefois, jusqu’à présent, elle était incapable de maîtriser les jeux de société plus complexes.

L’IA vient de passer un nouveau cap en devenant experte de Stratego et Diplomacy. Ces deux jeux de stratégie sont basés sur la notion « d’information imparfaite », à la différence des échecs et du Go où les joueurs voient toutes les pièces sur le plateau.

Dans Stratego, l’identité des pièces est cachée jusqu’à ce qu’une autre pièce les rencontre. De son côté, Diplomacy consiste à établir des accords, des alliances, et des vengeances dont la nature est tenue secrète.

Ces jeux ne requièrent donc pas de calculer les chemins vers la victoire, mais réclament des capacités plus subtiles comme l’habilité à deviner les pensées de l’adversaire et ajuster sa stratégie pour contrecarrer ses plans. Il est nécessaire de bluffer et de convaincre.

Ces deux jeux de plateau ont été maîtrisés à quelques jours d’intervalle par deux modèles d’IA différents, l’un développé par DeepMind et l’autre par Meta (anciennement Facebook).

DeepNash de DeepMind s’impose à Stratego

Le modèle jouant à Stratego et développé par DeepMind est dénommé DeepNash. Plutôt que d’être focalisé sur l’exécution de coups intelligents, il est conçu pour jouer d’une façon imprévisible.

Ce jeu présente des caractéristiques le rendant plus compliqué que les échecs, le Go ou le poker déjà maîtrisés par l’IA. Deux joueurs placent 40 pions chacun sur un plateau, mais ne peuvent pas voir les pions de l’adversaire. Le but est de déplacer les pions pour éliminer ceux de l’adversaire et capturer un drapeau.

Au total, Stratego peut se dérouler de 10535 façons différentes. En comparaison, ce nombre est de 10360 pour le jeu de Go. De même, en termes d’information imparfaite au début du jeu, Stratego a 1066 positions cachées possibles contre 106 dans une partie de poker.

Cette IA fait parfois preuve d’audace. Lors d’une partie contre un humain, elle a sacrifié plusieurs pions de haut niveau et s’est retrouvée en infériorité numérique. Il s’agissait en fait d’un risque calculé pour pousser le joueur à sortir ses meilleurs atouts. Elle a ensuite gagné en développant sa stratégie autour de cet élément.

Ce modèle DeepNash est suffisamment bon à Stratego pour battre tous les autres systèmes à chaque fois, et gagner 84% des parties contre des humains expérimentés. En 50 parties sur la plateforme de jeu en ligne Gravon, elle s’est hissée en troisième position des meilleurs joueurs de Stratego sur la plateforme depuis 2002.

Pour atteindre ce niveau de performance, DeepMind n’a pas pu exploiter les mêmes algorithmes que pour le jeu d’échec et de Go. Ils n’étaient pas du tout adaptés à ce jeu. Les chercheurs ont donc inventé une nouvelle méthode algorithmique intitulée Regularised Nash Dynamics.

Le modèle DeepNash combine un algorithme d’apprentissage par renforcement avec un réseau de neurones profond. Pour trouver l’action idéale à effectuer pour chaque état d’une partie, cette IA a joué 5,5 milliards de parties contre elle-même.

Cicero : l’IA de Meta maîtrise le jeu Diplomacy

De son côté, l’IA maîtrisant Diplomacy est développée par Meta et le CSAIL et dénommée Cicero. Malgré la difficulté de ce jeu, le modèle est capable de rivaliser avec les joueurs humains.

Dans Diplomacy, jusqu’à 7 joueurs s’affrontent et représentent chacun une puissance européenne avant la Première Guerre mondiale. L’objectif est de contrôler les centres d’approvisionnement en déplaçant des flottes et des armées.

Ce jeu requiert un sens de la manigance, un talent pour la trahison et les fausses promesses et un véritable machiavélisme. La complexité ne réside pas dans la carte du monde ou les pions, mais dans la stratégie autour des accords passés. De plus, les joueurs doivent communiquer verbalement et convaincre de la sincérité de leurs intentions.

Là encore, il n’est donc pas uniquement question de puissance de calcul. Pour battre l’humain à ce jeu, Cicero suit un processus en plusieurs étapes.

Tout d’abord, l’IA se base sur le statut actuel du plateau et sur les discussions en cours pour effectuer une prédiction initiale des actions de chaque joueur. Elle perfectionne ensuite cette prédiction et les utilise pour former une intention pour elle-même et ses partenaires.

Par la suite, elle génère plusieurs messages candidats basés sur l’état du plateau, le dialogue et ses intentions. Les messages candidats sont ensuite filtrés pour réduire le non-sens, maximiser la valeur et assurer la cohérence avec les intentions.

Cette intelligence artificielle a été entraînée à partir des données de 125 261 parties sur la version en ligne de Diplomacy, combinées avec les données de parties jouées contre elle-même. Son module de raisonnement stratégique (SRM) a ainsi appris à prédire les actions des joueurs et à choisir une action optimale en fonction.

Son module de dialogue, utilisé pour communiquer ses intentions à ses alliés, repose sur un modèle de langage à 2,7 milliards de paramètres pré-entraîné sur du texte provenant d’internet puis raffiné à l’aide de messages issus de parties de Diplomacy jouées par des humains. En fonction des intentions du SRM, ce module génère un message de conversation.

Sur webDiplomacy.net, Cicero est parvenu à tenir tête à ses adversaires humains. Elle s’est hissée en deuxième place d’un classement de 19 joueurs et a surpassé le score de la plupart d’entre eux.

Une IA capable de déclencher une guerre ?

Selon Michael Wellman de l’Université du Michigan, « la vitesse à laquelle des caractéristiques de jeux différentes ont été conquises ou maitrisées par l’IA ces dernières années est plutôt remarquable ». Ce chercheur en informatique étudie le raisonnement stratégique et la théorie des jeux.

Comme il le souligne, « Stratego et Diplomacy sont assez différents l’un de l’autre, et présentent aussi des défis à relever notablement différents de jeux où des succès similaires ont été atteints ».

D’après Noam Brown, chercheur de Meta AI, ces IA de jeu capables d’interagir avec des humains et de prendre en compte des actions non-optimales ou même irrationnelles pourraient paver la voie vers des applications dans le monde réel.

Selon ses dires « si vous fabriquez une voiture autonome, vous ne voulez pas partir du principe que tous les autres conducteurs sur la route sont parfaitement rationnels ou vont se comporter de façon optimale. Cicero est un grand pas dans cette direction ».

Il estime que cette technologie pourrait aider les assistants virtuels à mieux comprendre ce que veulent les consommateurs, où rendre les êtres virtuels du métavers plus engageants et réalistes. L’objectif de ces chercheurs n’est pas de créer des IA capables de battre les humains dans les jeux, mais bien de coopérer avec eux dans le monde réel.

Toutefois, certains experts sont nettement moins optimistes. Selon Kentaro Toyama, expert en intelligence artificielle de l’Université du Michigan, « ces IA sont effrayantes et pourraient être utilisées pour faire le mal ». Tout comme les IA génératives inquiètent les artistes, ce type d’intelligence artificielle représente aussi une menace.

Il craint que leur capacité à cacher des informations, à penser avec plusieurs tours d’avance sur leurs adversaires et à surpasser l’intelligence des humains représente un risque. À ses yeux, cette technologie pourrait être utilisée pour créer des arnaques plus convaincantes ou des DeepFakes plus réalistes.

Le code de Cicero est ouvert au public, et des acteurs malveillants pourraient le copier et utiliser ses compétences en négociation et communication pour créer des emails persuasifs et extorquer leurs proies.

Pire encore, si une personne entraînait ce modèle de langage sur les données comme les documents diplomatiques dévoilés par WikiLeaks, Toyama redoute que le système puisse usurper l’identité d’un diplomate et entamer une communication avec une puissance étrangère.

Selon ce spécialiste, « l’IA est comme la puissance nucléaire de cette époque. Elle a un potentiel colossal à la fois pour le bien et le mal, mais… je pense que si nous ne commençons pas à réguler le mal, tous les oeuvres de science-fiction sur l’IA dystopique deviendront des faits scientifiques »…