Plier une feuille ou ouvrir un sac ? C’était déjà fait. Mais trier le linge, préparer une valise ou recycler les déchets grâce à une recherche en ligne, c’est le nouveau terrain de jeu des robots signés Google DeepMind.
Présentées lors d’une conférence de presse, ces nouveautés s’appuient sur deux modèles récemment améliorés, Gemini Robotics 1.5 et Gemini Robotics-ER 1.5. L’objectif est de permettre aux machines d’anticiper leurs actions, de comprendre leur environnement et d’apprendre les unes des autres.
L’IA de Google rend les robots de plus en plus humain
Carolina Parada, responsable de la robotique chez Google DeepMind, a expliqué que les modèles pouvaient désormais traiter bien plus qu’une instruction simple.
Avant, un robot suivait un ordre très général, sans comprendre réellement la logique derrière. Maintenant, il peut décortiquer une tâche complexe en plusieurs étapes. Il a même la possibilité de consulter Google Search pour compléter ses connaissances.
Prenons un exemple : préparer une valise. Désormais, ce ne serait plus un simple rangement mécanique. Le robot croise la météo londonienne en ligne, adapte le choix des vêtements, puis range soigneusement l’ensemble.
Autre démonstration : trier le linge par couleurs claires et foncées. Cela peut paraître banal pour nous. Mais pour une machine, il s’agit d’une série d’actions coordonnées nécessitant vision, raisonnement et exécution.
Gemini Robotics-ER 1.5 joue ici le rôle de cerveau interprète. Il traduit les résultats web en instructions simples, compréhensibles par Gemini Robotics 1.5, chargé de la perception et de l’action. Ce duo permet donc au robot de passer de la recherche en ligne à l’action physique, sans intermédiaire humain.
Une nouveauté réside aussi dans la flexibilité. Les modèles ne s’arrêtent plus à une tâche ponctuelle. Ils développent dorénavant une compréhension élargie du problème. Cela ouvre la voie à des robots capables de prendre en charge des situations variées, sans programmation spécifique pour chaque cas.
Des robots qui apprennent ensemble, même s’ils sont différents
Lors de la présentation, un autre point marquant a retenu l’attention. La capacité des robots à partager leurs compétences entre eux. Concrètement, une tâche apprise par un robot équipé de deux bras mécaniques peut être reproduite par un autre modèle totalement différent, voire par un humanoïde.
Kanishka Rao, ingénieur logiciel chez Google DeepMind, a précisé que ce transfert de savoirs fonctionnait déjà entre plusieurs machines. Ainsi, le robot ALOHA2, spécialisé dans la manipulation à deux bras, a vu ses gestes repris avec succès par Franka, un autre robot bibras, mais aussi par Apollo, un humanoïde conçu par Apptronik.
Ce système unique repose sur un modèle commun capable de piloter des architectures variées. Plutôt que de développer des programmes spécifiques pour chaque robot, Gemini Robotics 1.5 uniformise la communication et les compétences. Ce qui rend les machines beaucoup plus polyvalentes.
Bref, Google DeepMind ouvre progressivement l’accès à ces nouveautés. Gemini Robotics-ER 1.5 est déjà disponible pour les développeurs via l’API Gemini dans Google AI Studio. En revanche, l’utilisation complète de Gemini Robotics 1.5 reste réservée à certains partenaires triés sur le volet, le temps de peaufiner les usages.
- Partager l'article :