Vous savez ce qui pourrait beaucoup améliorer l’intelligence des robots ? Leur doter d’une voix intérieure. Du moins, c’est l’approche assez prometteuse que Google DeepMind explore en ce moment.
Selon le laboratoire d’IA du géant du web, c’est une sorte de « discours intra-agent pour faciliter l’apprentissage des tâches ». Le but étant d’accélérer et d’optimiser l’acquisition de compétences chez les agents d’IA.
Une voix intérieure, qui n’en voudrait pas ?
Oui parce que cette technologie est assez efficace. Pour faire simple, le principe est de permettre aux robots d’observer des scènes. Ce, qu’il s’agisse d’images fixes ou de séquences vidéo. Puis de produire automatiquement une description en langage naturel de ce qu’ils perçoivent.
Par exemple, en visionnant une vidéo d’une personne prenant une tasse, le robot génère en interne la phrase « la personne prend la tasse ». Et ce commentaire silencieux, cette espèce de voix intérieure constitue un pont entre perception visuelle et action motrice.
Il donne à une machine un cadre de compréhension conceptuel et renforce sa capacité à généraliser des tâches. Ce qui est plutôt pratique même face à des objets qu’elle n’a jamais rencontrés.
Vous voulez savoir en quoi est-ce génial ? Eh bien, ce système permet ce que les chercheurs appellent un apprentissage « zéro-shot ». Autrement dit, le robot est apte à exécuter une action sans qu’un entraînement spécifique ne soit requis au préalable.
En prime, cette méthode allège considérablement la charge mémoire et les besoins en puissance de calcul. Les deux contraintes majeures dans l’apprentissage machine appliqué à la robotique.
Google Deepmind continue à avancer
En effet, je dois dire que Google DeepMind est de plus en plus sérieux pour ce qui est de rendre ses systèmes d’IA plus autonomes, plus légers, et mieux adaptés aux contraintes du monde réel.
Par exemple, récemment, la société a dévoilé Gemini Robotics On-Device. C’est une version embarquée de son modèle de langage visuel Gemini Robotics. Elle est spécifiquement conçue pour fonctionner localement sur les robots, sans connexion au cloud.
D’ailleurs, pour votre information, Gemini On-Device est performant. Il peut être utilisé immédiatement et s’adapte à de nouvelles tâches après seulement 50 à 100 démonstrations.
Il est à même d’effectuer des actions complexes, du genre, plier du linge ou ouvrir des sacs. Et ce, avec une fluidité de mouvement et une faible latence. Google le présente comme un modèle « d’entrée de gamme ». Il est parfaitement adapté aux robots évoluant dans des environnements à connectivité limitée.
Parallèlement à ces avancées robotiques, DeepMind continue de faire progresser l’IA dans d’autres domaines scientifiques. Dernièrement, l’équipe a dévoilé un modèle capable de prédire l’impact des mutations génétiques sur les systèmes complexes de régulation des gènes.
- Partager l'article :
