La startup Figure dévoile Helix, une IA permettant aux robots de réagir aux consignes en langage naturel et de manipuler des objets qu’ils n’ont jamais vus auparavant. Une avancée majeure, qui va permettre aux robots de s’occuper des corvées ménagères dans votre logement !
En avril 2024, la startup californienne Figure s’était illustrée avec son robot 01 servant de corps à ChatGPT lors d’une démonstration. Toutefois, la firme a annoncé la fin de son partenariat avec OpenAI début février 2025.
Elle avait alors déclaré avoir « atteint une avancée majeure vers un robot IA entièrement développé en interne » et s’était dit « excitée de révéler quelque chose que personne n’a jamais vu dans l’industrie de l’humanoïde d’ici les 30 prochains jours ».
Le voile a enfin été levé, puisque ce mystérieux projet vient d’être révélé ce 20 février 2025. Il s’agit d’Helix, un modèle Vision-Langage-Action généraliste.
L’IA qui permet aux robots de saisir des objets inconnus
Ce modèle unifie la perception, la compréhension du langage, et le contrôle pour surmonter les défis de la robotique. Selon Brett Adcock, fondateur de Figure, il s’agit de la plus grande avancée IA de l’histoire de son entreprise.
Selon lui, « Helix pense comme un humain ». Il est capable de comprendre le discours, de raisonner à travers des problèmes, et de saisir n’importe quel objet sans avoir besoin d’entraînement ou de code.
Il va permettre « d’apporter les robots dans les foyers » grâce à sa capacité à « généraliser à virtuellement n’importe quel objet de la maison ». Lors des tests, il est parvenu à saisir tous les objets même sans les avoir vus auparavant.
Le CEO explique que l’entreprise « a travaillé sur ce projet pendant plus d’un an, dans le but d’atteindre la robotique générale ».
Comment Helix repousse les limites de la robotique ?
?ref_src=twsrc%5Etfw">February 20, 2025Meet Helix, our in-house AI that reasons like a human
Robotics won't get to the home without a step change in capabilities
Our robots can now handle virtually any household item: pic.twitter.com/Wsx5s8Qelc
Toujours selon Figure, Helix introduit une approche innovante de contrôle des manipulations du haut du corps incluant les poignets, le torse, la tête et les doigts individuels.
Il offre un contrôle continu à haut débit de l’ensemble du haut du corps humanoïde, et ce niveau de contrôle permet des mouvements et des interactions plus nuancés.
Un autre aspect important d’Helix est sa capacité à contrôler plusieurs robots simultanément pour les faire collaborer. Il peut contrôler deux robots à la fois, leur permettant de travailler ensemble sur des tâches de manipulation à long terme impliquant des objets qu’ils n’ont jamais vus.
Cette capacité élargit largement les possibilités offertes par la robotique au sein d’environnements complexes. Les robots équipés d’Helix comprennent aussi les prompts en langage naturel, ce qui facilite leurs interactions.
Par ailleurs, l’approche d’Helix se démarque par l’utilisation d’un ensemble unique de poids de réseau de neurones pour apprendre différents comportements. Il peut s’agir par exemple d’attraper et de placer un objet, d’utiliser un tiroir ou un frigo, ou d’interagir entre robots.
Ceci élimine le besoin d’un fine-tuning spécifique pour chaque tâche, et fluidifie fortement le processus d’apprentissage.
Notons enfin qu’Helix fonctionne sur des GPU intégrés à faible puissance, ce qui le rend adapté à un déploiement commercial et à une utilisation dans le monde réel…
Un VLM basé sur un système de pensée et un système d’action
Comme l’explique Figure, les systèmes robotiques actuels peinent à s’adapter rapidement à de nouvelles tâches. Ils nécessitent une programmation à partir de nombreuses démonstrations.
Pour surmonter cette limite, la startup a utilisé les capacités des modèles VLM (Vision Langage Model) pour permettre aux robots de généraliser leurs comportements sur demande et d’effectuer des tâches via les instructions en langage naturel.
Ainsi, Helix est conçu pour contrôler toute la partie supérieure du corps d’un humanoïde avec vitesse et dextérité. Il regroupe le Système 1 (S1) et le Système 2 (S2).
?ref_src=twsrc%5Etfw">February 21, 2025Figure posted our first write-up today discussing Helix!
The report describes in-depth how we designed Helix including system architecture and additional tests not capture in the release video
LMK what you think!https://t.co/OpzVZZm0uI
Le S2 est un VLM plus lent, pré-entraîné sur internet, qui se focalise sur la compréhension des scènes et du langage.
De son côté, S1 est une politique visuomotrice rapide qui convertit les informations provenant de S2 en actions en temps réel du robot. Cette division permet à chaque système d’opérer de façon optimale : S2 pour le traitement de pensée, et S1 pour l’exécution rapide.
Ainsi, « Helix résout plusieurs problèmes auxquels ont été confrontées les précédentes approches robotiques, notamment la vitesse d’équilibrage et la généralisation, la scalabilité pour gérer des actions à haute dimension, et la simplicité architecturale en utilisant des modèles standards ».
De plus, la séparation en S1 et S2 permet des améliorations indépendantes pour chaque système, sans dépendre d’une observation ou d’un espace d’action partagés.
Pour entraîner Helix, un jeu de données d’environ 500 heures de comportements téléopérés a été collecté, en utilisant un VLM d’étiquetage automatique pour générer des instructions en langage naturel.
L’architecture implique un VLM à 7 milliards de paramètres et un Transformer à 80 millions de paramètres pour le contrôle. Les inputs visuels sont traités pour permettre un contrôle réactif basé sur les dernières représentations générées par le VLM.
Contrairement aux précédents systèmes robotiques, Helix peut générer des manipulations collaboratives habiles à la volée sans avoir besoin de démonstrations ou de programmation manuelle spécifiques à une tâche.
Il peut donc manipuler des milliers d’objets de différentes tailles, couleurs et matières dans votre domicile à l’aide d’une simple demande en langage naturel…
Un cerveau commun pour les robots du futur ?
Même si Helix représente une grande avancée pour la robotique, Figure n’est pas le premier à créer une telle IA conçue pour servir de cerveau aux robots humanoïdes.
En avril 2024, lors de la conférence GTC, Nvidia a présenté GR00T : une IA multimodale pouvant être incorporée à n’importe quel robot humanoïde.
De même, la startup Skild AI a levé des fonds importants pour développer un cerveau IA à usage général pour les robots et leur permettre de combiner plusieurs aptitudes comme la perception, la manipulation et le raisonnement.
En parallèle, OpenAI et Meta envisagent de développeur leurs propres robots humanoïdes pour servir de corps à leurs IA respectives telles que ChatGPT et Llama. On peut s’attendre à ce que d’autres géants de l’IA comme Google en fassent de même…
À terme, les robots humanoïdes seront dotés d’une intelligence artificielle suffisamment développée pour leur permettre d’interagir de façon naturelle et de collaborer avec l’humain !
Et vous, qu’en pensez-vous ? Êtes-vous impressionné par Helix ? Pensez-vous que les robots humanoïdes pourront bientôt rivaliser avec l’humain en termes d’intelligence et d’action ? Donnez-nous votre avis en commentaire !
- Partager l'article :
C’est TROP!! Ca va mal finir tout ca!!!