Oubliez les images et vidéos : World Labs lance l’IA qui génère des mondes

Alors que tout le monde a les yeux rivés sur les vidéos générées par Sora ou les images toujours plus bluffantes des derniers modèles, une autre révolution commence discrètement à prendre forme. Avec Marble, World Labs ne fabrique plus des contenus… mais des mondes.

Depuis deux ans, la course à l’IA s’accélère : on passe du texte aux images, puis des images aux voix, avant d’être happé par des vidéos hyperréalistes générées en quelques secondes.

Les créateurs s’émerveillent, les studios paniquent, les plateformes s’affolent… mais pendant qu’on se demande encore si Sora remplacera Hollywood, une autre bataille démarre, bien plus profonde. Celle où l’IA cesse de représenter le monde…et commence à le construire.

C’est exactement l’ambition de World Labs, la startup fondée par la légendaire Fei-Fei Li, figure historique de la vision par ordinateur et co-directrice du Stanford HAI.

Leur premier produit, Marble, ne génère pas des photos ni des vidéos : il génère des mondes. Des environnements 3D complets, navigables, exportables, modifiables, où l’on peut littéralement se balader. Une innovation que Li présente comme “le défi majeur de la prochaine décennie”.

Le pari spatial de Fei-Fei Li : la prochaine frontière de l’IA

On avait enfin réussi à distinguer une vidéo faite par une IA… et maintenant elles nous construisent le décor entier. Voilà ce que suscite Marble à son lancement.

Pour comprendre l’ambition, il faut revenir à celle qui la porte. Fei-Fei Li n’est pas une entrepreneure de passage : c’est elle qui a créé ImageNet en 2009, le jeu de données qui a déclenché la vague deep learning moderne.

Depuis Stanford, elle répète depuis trois ans que l’IA doit apprendre à comprendre l’espace, pas seulement les pixels.

Elle parle d’“intelligence spatiale”, c’est-à-dire la capacité d’un modèle à percevoir, raisonner, naviguer et construire dans un monde tridimensionnel.

Un domaine encore largement ouvert, mais qui pourrait conditionner la robotique, la simulation, l’ingénierie ou la recherche scientifique des années 2030.

Sa nouvelle société, World Labs, fondée en 2024, a levé 230 millions de dollars dès sa première année. Et lorsqu’un tour de table aussi massif accompagne un projet encore à peine dévoilé, cela signifie une chose : la Silicon Valley croit à ce pari.

Marble : l’IA qui fabrique non pas des images… mais des mondes

Le principe de Marble est d’une simplicité trompeuse : vous décrivez une scène comme un temple abandonné, un village hobbit, un château en ruines envahi par la végétation.

Et Marble fabrique un monde 3D complet, texturé, éclairé et explorable. On peut marcher dedans, tourner la caméra, se rapprocher d’une porte, s’aventurer dans une clairière. Ce n’est pas un rendu fixe : c’est un espace cohérent, généré à la volée.

Les mondes peuvent ensuite être exportés vers Unity ou Unreal Engine, ce qui permet une intégration directe dans des prototypes de jeux, des productions VFX ou des maquettes architecturales. C’est la première fois que la génération 3D s’intègre réellement dans les pipelines professionnels.

Marble fonctionne par abonnement. L’offre gratuite donne droit à quatre générations ; les formules à 20, 35 et 95 dollars par mois montent progressivement en capacité, en droits commerciaux et en quantité de mondes créables.

Techniquement, les environnements restent limités : on avance de quelques dizaines de mètres avant de rencontrer une “frontière” invisible. Mais certains utilisateurs commencent déjà à assembler plusieurs générations pour composer des environnements plus vastes.

Pourquoi les “world models” pourraient changer plus que Sora et Gemini

Sora produit des vidéos ; Gemini 2.0 produit des séquences cohérentes ; mais Marble produit un espace navigable, ce qui est radicalement différent. La vidéo est une surface : un rectangle en 2D qui suggère un mouvement.

Le monde généré est un volume : une structure dans laquelle une caméra peut se déplacer librement. Ce n’est pas un storytelling, c’est un environnement.

Cette approche touche un domaine qui dépasse largement la création artistique. En robotique, par exemple, les humanoïdes (Figure 02/03, Optimus, NEO) ont besoin de modèles internes de l’espace pour anticiper des trajectoires et comprendre les relations entre les objets.

Les chercheurs de DeepMind, Meta et OpenAI parlent depuis deux ans de “world models généralistes” : une architecture d’IA qui encode non seulement des images, mais des dynamiques physiques.

La 3D générative pourrait aussi bouleverser l’industrie du jeu vidéo, où la création d’environnements représente souvent plus de 50 % du budget.

Si une IA peut générer un brouillon de niveau ou un décor réaliste en quelques minutes, les équipes pourront itérer dix fois plus vite.

Des usages concrets : du film à la recherche scientifique, en passant par les jumeaux numériques

On pourra bientôt créer un laboratoire de physique nucléaire dans son salon… sans risquer de faire fondre le carrelage.

En effet, Marble ouvre plusieurs terrains d’expérimentation immédiats. Les studios de cinéma peuvent prévisualiser un décor, tester des ambiances lumineuses, organiser un repérage virtuel.

Les équipes VFX, toujours prises par des deadlines intenables, peuvent générer une première version d’un environnement avant de le retravailler à la main.

Les architectes peuvent matérialiser en quelques minutes une idée esquissée sur une serviette. Les urbanistes peuvent simuler l’impact d’un nouvel aménagement ou d’un bâtiment dans un quartier existant.

Les entreprises, surtout celles manipulant des masses de données, peuvent les visualiser en trois dimensions pour y repérer des patterns invisibles en 2D.

Quant aux chercheurs en simulation scientifique, ils peuvent utiliser ces mondes générés comme terrains d’expérimentation pour l’exploration robotique, les interactions moléculaires ou la modélisation environnementale.

Tout ce qui exigeait hier une équipe de modeleurs 3D peut désormais être prototypé par une seule personne.

L’IA sait construire un monde… mais pas encore l’univers

Pour l’instant, si vous marchez trop loin, vous foncez dans un mur invisible : c’est l’open world le plus fermé de l’histoire.

Pour cause, Marble n’est encore qu’une première version. Les univers ne sont pas continus ; certains éléments peuvent manquer de cohérence géométrique ; les textures s’étirent parfois ; l’éclairage peut être fantaisiste.

La génération dépend d’une puissance de calcul considérable, signe que la 3D volumétrique reste une discipline jeune pour les modèles génératifs. Et surtout, la création de vastes environnements cohérents demande encore un travail humain de réassemblage.

Mais pour Fei-Fei Li, ce stade “alpha” donne déjà un aperçu de comportements émergents : compréhension structurelle des volumes, interprétation correcte des perspectives, cohérence topologique à grande échelle. Un terrain fertile pour les années à venir.

Ce que cela signifie pour l’avenir : robots plus intelligents, créateurs décuplés, 3D pour tous

Si l’intelligence spatiale devient la norme, alors toute l’informatique change de nature. Les robots humanoïdes pourront simuler un environnement avant d’y entrer.

Les créateurs, qu’ils soient artistes ou ingénieurs, pourront produire en 10 minutes ce qui demandait un mois.

Les entreprises pourront manipuler leurs données comme un espace à explorer plutôt que comme un tableau Excel. Et le grand public pourra créer un univers entier comme on écrit un message.

Dans les années 2010, l’IA a appris à reconnaître des images. Dans les années 2020, elle a appris à en générer. Les années 2030 pourraient être celles où l’IA apprend à construire des mondes.

Notre blog est alimenté par les lecteurs. Lorsque vous achetez via des liens sur notre site, nous pouvons percevoir une commission d’affiliation.