Accueil > Intelligence artificielle > Poker : l’intelligence artificielle triomphe des meilleurs joueurs du monde
poker ia pluribus

Poker : l’intelligence artificielle triomphe des meilleurs joueurs du monde

L’intelligence artificielle Pluribus, créée par les chercheurs de Facebook et de la Carnegie Mellon University, a battu les meilleurs joueurs de Poker du monde. Une avancée majeure pour l’IA. 

Coup de poker de la part des chercheurs du Facebook AI Lab et de la Carnegie Mellon University. Ensemble, ils ont créé une intelligence artificielle capable de triompher des meilleurs joueurs du monde au poker Texas Hold’em.

Pendant une durée de douze jours, l’IA, dénommée Pluribus, a affronté 12 professionnels en plus de 10 000 mains. Les parties se sont déroulées dans deux configurations différentes. Dans le premier cas, l’IA jouait seule contre cinq joueurs humains. Dans le second cas, cinq versions de l’IA jouaient contre un humain seul.

Au total, Pluribus a gagné en moyenne 5 dollars par mai et environ 1000 dollars par heure. Sa marge de victoire était  » décisive  » selon les chercheurs. D’après le chercheur Noam Brown de Facebook AI Research, co-créateur de Pluribus, on peut même parler d’un  » niveau surhumain « .

Ses adversaires eux-mêmes avouent être bluffés, et ce dans tous les sens du terme. Selon Chris Ferguson, six fois champion du World Series of Poker,  » Pluribus est très difficile à affronter, quelle que soit votre main « . Les joueurs ont été choqués par sa capacité à bluffer ses adversaires, et à gagner des parties même avec des mains médiocres. Ainsi, c’est sa constance qui a surtout surpris les professionnels…

Poker : l’une des plus belles victoires de l’intelligence artificielle

Dans un article publié dans Science, les scientifiques expliquent que la victoire de Pluribus au poker est une avancée majeure pour l’IA. Même si le Machine Learning a déja surpassé l’humain sur plusieurs jeux comme le Go ou les échecs, et sur des jeux vidéo comme Starcraft II et Dota, un poker contre cinq personnes représente un défi beaucoup plus complexe. Non seulement les informations nécessaires à la victoire son dissimulées aux yeux des joueurs, mais le nombre de joueurs complique encore l’équation.

Pour relever ce défi, Noam Brown et Thomas Sandholm ont d’abord appris à Pluribus à jouer au poker contre des copies de lui-même. C’est ce qu’on appelle le  » self-play « , une technique couramment employée pour entraîner l’IA. En s’entraînant contre elle-même au travers de milliers de parties, l’IA apprend de ses propres erreurs. C’est aussi de cette façon que l’IA d’OpenAI a triomphé des meilleurs joueurs de Dota 2.

Cette technique s’est avérée particulièrement efficace. Pour entraîner Pluribus, il aura suffi de huit joueurs et d’un serveur à 64 coeurs équipé de moins de 512 GB de RAM. Le coût de l’opération peut donc être estimé à 150 dollars à peine. C’est ce qu’il a fallu dépensé pour humilier les meilleurs joueurs de Poker du monde à leur propre discipline.

Cependant, pour permettre à l’IA d’affronter cinq joueurs à la fois, les chercheurs lui ont ensuite appris à décrypter le jeu grâce à la technique de la  » fonction de recherche « . Ainsi, plutôt que d’essayer de prédire ce que vont faire ses adversaires jusqu’à la fin de la partie, Pluribus est conçu pour penser avec seulement deux ou trois tours d’avance. C’est ce qui permet de réduire la complexité des calculs, sans pour autant réduire les performances du modèle.

La capacité de Pluribus à bluffer, quant à elle, est liée au fait qu’il ne perçoit pas le bluff comme une tromperie mais comme une stratégie d’optimisation mathématique. En d’autres termes, l’IA se contente de prendre la décision qui peut lui rapporter le plus d’argent à chaque tour. C’est ce qui la rend si performante et supérieure à l’humain dans cette discipline.

Au-delà de la correction infligée aux meilleurs joueurs de Poker, on peut se demander de quelle façon cette avancée pourra être appliquée à des domaines plus  » utiles « . En effet, de nombreuses situations du monde réel ressemblent au Texas Hold’em, au seins où elles impliquent plusieurs personnes, des informations cachées, et de multiples possibilités. Ainsi, les chercheurs espèrent appliquer leurs travaux à des secteurs comme la cybersécurité, la prévention de fraude, et les négociations financières

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend