Les robots peuvent désormais apprendre de nouvelles compétences en faisant des rêves lucides ! Les chercheurs du MIT viennent de créer un système dénommé LucidSim, combinant l’IA générative d’images et la simulation physique pour permettre aux machines de s’entraîner comme dans le monde réel…
L’industrie de la robotique fait face à de nombreux défis, mais l’un d’eux est particulièrement difficile à relever pour les chercheurs : créer des machines capables de s’adapter à n’importe quel environnement ou condition.
Depuis les années 1970, le domaine a beaucoup évolué. Nous sommes passés de l’écriture de programmes sophistiqués à l’utilisation du Deep Learning, permettant aux robots d’apprendre directement à partir du comportement humain.
Toutefois, un obstacle demeure : la qualité des données. En effet, pour s’améliorer, les robots ont besoin d’être confrontés à des scénarios repoussant les limites de leurs capacités.
Ce processus nécessite traditionnellement une supervision humaine, avec des opérateurs défiant les robots dans le but d’étendre leurs capacités.
Or, à mesure que les robots deviennent plus sophistiqués, cette approche manuelle se heurte à un problème d’échelle. Pour cause, la demande en données d’entraînement de haute qualité dépasse largement la capacité des humains à les fournir.
Afin de surmonter cette barrière, une équipe de chercheurs du MIT CSAIL a développé une nouvelle approche de l’entraînement des robots. Celle-ci pourrait accélérer massivement le déploiement de machines intelligentes, adaptables, dans des environnements du monde réel.
Un système combinant IA générative et simulation physique
Ce nouveau système, baptisé « LucidSim », utilise les récentes avancées dans l’IA générative et les simulateurs de physique pour créer des environnements virtuels d’entraînement divers et réalistes.
Le but ? Aider les robots à atteindre des performances de niveau expert dans des tâches difficiles sans aucune donnée du monde réel.
En combinant la simulation physique et les modèles d’IA générative, LucidSim accomplit ce que beaucoup pensaient impossible : transférer les compétences acquises dans la simulation vers le monde réel.
Comme l’explique Ge Yang, principal chercheur du projet, « un défi fondamental dans l’apprentissage robotique a longtemps été le fossé sim-to-real, à savoir la disparité entre les environnements d’entraînement simulés et le monde réel, complexe et imprévisible ».
Selon lui, « les précédentes approches reposaient souvent sur des capteurs de profondeur, qui simplifiaient le problème mais passaient à côté de la complexité cruciale du monde réel ».
Leur système est un mélange de différentes technologies. En son cœur, LucidSim utilise les larges modèles de langage (ou LLM) pour générer diverses descriptions structurées d’environnements.
Ces descriptions sont ensuite transformées en image à l’aide de modèles génératifs. Pour s’assurer qu’elles reflètent la physique du monde réel, un simulateur physique sous-jacent est utilisé pour guider le processus de génération.
Un projet inspiré par un restaurant de burritos
La source d’inspiration de LucidSim est particulièrement insolite : il s’agit d’une conversation devant le restaurant mexicain Beantown Taqueria situé à Cambridge.
L’un des chercheurs du projet, Alan Yu, explique que « nous voulions apprendre aux robots dotés de vision à s’améliorer en utilisant le feedback humain, mais nous avons ensuite réalisé que nous n’avions pas de politique purement basée sur la vision pour commencer ».
Ils ont alors continué à discuter en descendant la rue, et se sont arrêtés devant le restaurant pendant environ une demi-heure : « c’est là que nous avons eu l’illumination ».
Dreams in Motion : une technique pour faire rêver les robots
Afin de préparer les données, l’équipe a généré des images réalistes via l’extraction de cartes de profondeur. Celles-ci fournissent des informations géométriques et des masques sémantiques qui étiquettent les différentes parties d’une image à partir de la scène simulée.
Toutefois, ils ont rapidement réalisé qu’avec un contrôle sur la composition du contenu de l’image, le modèle produisait des images similaires qui n’étaient pas différentes les unes des autres en utilisant le même prompt.
Ils ont alors imaginé un moyen d’obtenir divers prompts textuels à partir de ChatGPT. Cependant, cette approche n’a permis de produire qu’une seule image.
To make short, 140 millisecond videos that serve as visual "experiences" for the robot, the scientists hacked together a trick called "Dreams In Motion (DIM)" using a mix of image magic.
This trick made LucidSim 7x times faster by moving pixels of a single generated image… pic.twitter.com/SzAeznWhWW
— MIT CSAIL (@MIT_CSAIL) November 13, 2024
Afin de créer des vidéos courtes et cohérentes servant de petites « expériences » pour le robot, les scientifiques ont créé une nouvelle technique : Dreams in Motion (DIM).
Le système calcule les mouvements de chaque pixel entre les images, afin de transformer une seule image générée en une courte vidéo à plusieurs images.
Pour y parvenir, il prend en compte la géométrie 3D de la scène et les changements relatifs de perspective du robot.
Un nouveau standard pour l’entraînement de robots ?
Selon Yu, « nous surpassons la méthode de randomization de domaine développée en 2017, qui consiste à appliquer des motifs et des couleurs aléatoires à des objets dans l’environnement et qui est toujours considérée comme une référence ».
Pour cause, « même si cette technique génère des données diverses, elle manque de réalisme. Or, LucidSim résout à la fois les problèmes de diversité et de réalisme ».
Le chercheur se dit excité par le fait que « même sans voir le monde réel pendant son entraînement, le robot peut reconnaître et naviguer entre les obstacles dans les environnements réels ».
L’équipe est très enthousiasmée par la possibilité d’appliquer LucidSim à des domaines hors de la locomotion quadrupède et du parkour qui constituent leur principal banc d’essai.
Un exemple d’application serait la manipulation mobile, dans laquelle un robot mobile est chargé de manipuler des objets dans une zone ouverte. Là encore, la perception de couleur est essentielle.
Selon Yang, « aujourd’hui, ces robots apprennent toujours de démonstration du monde réel. Bien que la collecte de démonstrations soit simple, il est difficile de mettre à l’échelle une configuration de téléopération robotique réelle pour des milliers de compétences ».
Pour cause, un humain doit physiquement mettre en place chaque scène. Ils espèrent donc faciliter le processus, et donc le rendre plus évolutif qualitativement, en déplaçant la collecte de données dans un environnement virtuel.
En comparaison avec une méthode alternative où un enseignant expert fait une démonstration d’une compétence pour que le robot l’apprenne, les résultats se sont révélés surprenants.
Le robot entraîné par l’expert ne réussit que 15% du temps, même avec quatre fois plus de données. Au contraire, en collectant ses propres données via LucidSim, le robot a atteint un taux de succès de 80% !
Je pense personnellement que LucidSim pave la voie vers une nouvelle génération de machines intelligentes et adaptables, capables d’apprendre à naviguer dans notre monde si complexe sans jamais fouler son sol…
Et vous, quel est votre avis ? Le système LucidSim peut-il vraiment permettre aux robots d’apprendre à effectuer des tâches complexes avec autant de précision que les humains ? Partagez votre avis en commentaire !
- Partager l'article :