Google DeepMind dévoile SIMA 2, un agent IA qui ne se contente plus d’exécuter des commandes : il explore, observe, raisonne et progresse à travers des mondes virtuels photoréalistes. Propulsé par Gemini 2.5 et capable d’apprendre sans supervision humaine, SIMA 2 pourrait bien représenter l’étape la plus crédible vers une intelligence “incarnée”… celle qui fera un jour fonctionner les robots généralistes.
Vous connaissez les assistants IA qui vous répondent avec politesse mais se perdent dès qu’il faut agir ?
Avec SIMA 2, DeepMind semble avoir décidé que ça suffisait : voici désormais une IA qui arpente No Man’s Sky comme un touriste spatial, déchiffre un emoji pour aller couper un arbre, et reconnaît une “maison couleur tomate” sans que personne ne lui souffle quoi que ce soit.
SIMA 1, dévoilé en 2024, suivait des instructions dans des jeux en 3D, mais peinait dès qu’il fallait raisonner ou improviser.
Seulement 31 % de réussite sur les tâches complexes, contre 71 % pour les humains. Or, SIMA 2 change complètement d’échelle.
Grâce à l’intégration de Gemini 2.5 flash-lite, l’agent devient capable de comprendre son environnement, d’anticiper ce qui va se passer et de déterminer tout seul ses prochaines actions.
Le pouvoir de Gemini dans un corps virtuel
On pourrait croire que DeepMind a simplement greffé un LLM sur un bot de jeu vidéo. La réalité est plus ambitieuse : SIMA 2 devient un « embodied agent », c’est-à-dire une IA dotée d’un corps virtuel qui voit, décide, se trompe et se corrige, comme le ferait un joueur.
Quand les chercheurs le lâchent sur une planète rocheuse de No Man’s Sky, il décrit les lieux, repère une balise de détresse, calcule l’itinéraire, puis s’y dirige.
Pour un ordre du type « va vers la maison couleur tomate », SIMA 2 déroule sa réflexion : un fruit mûr est rouge, donc direction la maison rouge. On voit littéralement l’IA penser.
Dans les mondes générés par Genie (le world model photoréaliste de DeepMind) l’agent identifie bancs, arbres, objets à ramasser et créatures à éviter. Le virtuel n’est plus un décor : c’est un terrain d’apprentissage.
Là où SIMA 2 devient fascinant : il s’améliore sans humain
Jusqu’ici, les agents IA avaient besoin de milliers d’heures de gameplay humain pour apprendre. SIMA 1 en était l’exemple parfait.
Avec SIMA 2, DeepMind casse cette dépendance. L’agent utilise Gemini pour créer de nouvelles missions, un modèle de récompense pour s’auto-évaluer, puis recommence jusqu’à maîtriser la tâche.
Une boucle d’apprentissage fermée, presque biologique, où l’agent génère des défis, les tente, échoue, corrige, progresse… sans intervention humaine. Comme un joueur qui apprend un nouveau jeu en expérimentant, sauf que l’entraîneur n’est autre qu’une IA.
Cette capacité marque une rupture : plus besoin d’équipes de testeurs pour nourrir l’agent ; il peut explorer des mondes infinis et s’y perfectionner à son rythme.
C’est exactement ce qu’expliquait Joe Marino, chercheur chez DeepMind : “SIMA 2 est un agent plus général, capable de s’améliorer grâce à sa propre expérience.”
Le chaînon manquant vers les robots généralistes AGI
En observant SIMA 2 se débrouiller dans des univers 3D, certains y verront un futur NPC autonome pour jeux vidéo. DeepMind, lui, voit plus loin : un module cognitif pour robots généralistes.
Comme l’explique Frederic Besse, un robot domestique doit comprendre ce qu’est un placard, une boîte de haricots, un salon, un couloir. Sans cette compréhension du monde, impossible d’exécuter une requête aussi banale que “va voir combien il reste de boîtes de haricots dans le placard”.
SIMA 2 ne contrôle pas encore des bras ou des roues : il ne pilote que le cerveau, pas le squelette. Mais il couvre la partie la plus complexe, à savoir la compréhension de haut niveau. DeepMind a déjà d’autres modèles pour la motricité ; demain, les deux seront combinés.
Pourquoi SIMA 2 change la trajectoire de l’IA incarnée
Le rapprochement entre agents virtuels et robots physiques n’a jamais été aussi évident. En donnant à une IA la capacité d’explorer sans supervision, de raisonner dans un monde 3D, de comprendre les intentions humaines et de générer sa propre progression, DeepMind ouvre une perspective qui semblait encore lointaine : l’AGI incarnée.
Une intelligence qui ne se limite plus à écrire, répondre ou résumer, mais qui agit réellement. Dans un jeu aujourd’hui. Dans une maison demain. Dans une usine après-demain.
Le laboratoire ne donne aucune date pour une intégration dans des robots physiques, mais le signal est limpide : SIMA 2 est un prototype de comportement généraliste, pas un gadget ludique.
Ce n’est pas qu’un nouvel agent de DeepMind : c’est un avant-goût des IA capables de sentir, comprendre et naviguer dans un monde réel ou virtuel.
Une IA qui réfléchit en marchant, qui progresse en échouant, qui apprend sans être tenue par la main.
Aujourd’hui, elle explore des mondes virtuels. Demain, elle pourrait être la pièce maîtresse du robot généraliste qui rangera la cuisine sans transformer votre appartement en zone sinistrée.
Et vous, qu’en pensez-vous ? SIMA 2 est-il la pièce manquante dans la course à l’AGI ? Partagez votre avis en commentaire !
- Partager l'article :
