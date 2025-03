Vidéo : ce robot chinois vous prépare des tartines et vous sert à boire

Jusqu’ici, réaliser des actions complexes avec précision et fluidité est un véritable défi pour les robots humanoïdes. Mais cela va bientôt changer. Merci qui ? Merci à Genie Operator-1 (GO-1), un modèle d’IA d’AgiBot.

Cette nouvelle IA exploite d’importants volumes d’images et de vidéos afin d’aider les machines à mieux interpréter les comportements humains. Avec elle, les robots humanoïdes seront plus aisés dans l’exécution de nos tâches du quotidien.

À première vue, cette technologie est prometteuse. D’autant plus qu’elle a été conçue par une société spécialisée en robotique.

Cependant, il est encore trop tôt pour tirer des conclusions. Voyons de plus prêt ses capacités d’abord.

Le secret de Genie Operator-1 (GO-1)

En fin d’année 2024, l’entreprise a introduit AgiBot World. Une base de données robotique de grande ampleur comprenant plus d’un million de trajectoires réparties sur 217 tâches et couvrant cinq domaines d’activité.

Ce vaste ensemble de données constitue la pierre angulaire de GO-1, qui se positionne comme un modèle généraliste incarné, capable d’apprendre et de s’adapter à divers contextes.

Cela dit, bien qu’AgiBot World représente la plus vaste base de données robotique existante, les informations annotées selon les actions restent limitées. Alors, GO-1 intègre sur le framework Vision-Langage-Action Latente (ViLLA), lui-même développé par AgiBot.

Ce système d’actions latentes favorise un transfert de connaissances entre différentes sources de données pour mieux comprendre les mouvements. Il améliore ainsi la perception des scènes et la précision des robots.

Et contrairement aux méthodes traditionnelles qui associent directement une action à une image ou une instruction. ViLLA utilise des jetons d’action latente pour créer une transition plus fluide entre l’analyse et l’exécution des tâches.

Il repose sur deux piliers : le modèle Vision-Langage (VLM) et un mélange d’experts (MoE). Le VLM traite d’énormes quantités de données multimodales pour enrichir la compréhension des scènes et du langage.

Le MoE, quant à lui, se divise en deux parties. Il y a le Planificateur Latent. Celui qui apprend des modèles d’action généraux en observant aussi bien les mouvements humains que ceux de différents types de robots.

Puis, il y a l’Expert en Action, qui s’appuie sur plus d’un million de démonstrations robotiques pour perfectionner la précision des gestes et garantir des mouvements fluides et réalistes.

Le processus fonctionne en trois étapes. D’abord, le VLM analyse la scène à l’aide des signaux visuels, des forces appliquées et des instructions verbales. Le Planificateur Latent élabore ensuite une séquence d’actions structurée en fonction de ces données.

À la fin, l’Expert en Action convertit ce plan en gestes précis, permettant aux robots d’exécuter des tâches complexes avec plus d’efficacité et d’adaptabilité.

Lors de tests sur cinq tâches différentes, GO-1 a surpassé les modèles précédents en améliorant son taux de réussite de 46 % à 78 %. Des progrès notables ont été observés dans des missions comme le réapprovisionnement en boissons ou le versement d’eau.

Le gain de performance du planificateur d’actions a été évalué à 12 %, démontrant son efficacité. Voyez par vous même sur la vidéo ci-dessus ce dont un robot boosté par GO-1 est capable.

On peut donc croire AgiBot qui affirme que cette permettra aux robots d’apprendre aussi bien des comportements humains que de leurs propres expériences.

Quoi qu’il en soit, grâce à cette avancée, GO-1 pourrait être intégré à divers types de robots et évoluer constamment en fonction des besoins du monde réel.

Alors, qu’est-ce que vous en pensez ? Personnellement, je suis de ceux qui pensent qu’adopter un robot pour préparer des tartines, c’est du luxe.

Et vous ? Partagez votre opinion dans le commentaire !

