Un joueur émerveillé tenant une manette au premier plan découvre un environnement 3D généré par l'IA HY-World 2.0. Devant lui s'affiche un monde ultra-réaliste issu d'un prompt textuel, mettant en scène un petit pingouin portant une écharpe rouge au centre d'une pièce rustique en pierre et en bois.

De l'idée à l'exploration : un joueur bluffé par l'immersion d'un monde 3D ultra-réaliste généré instantanément à partir d'un simple prompt grâce à l'IA HY-World 2.0.

Tencent HY-World 2.0 : cette IA transforme vos mots en jeux vidéo… et c’est open source !

Bastien L. 16 avril 2026 4 minutes de lecture Intelligence artificielle

Tencent Hunyuan redéfinit l’industrie de l’intelligence artificielle spatiale avec HY-World 2.0, un modèle fondateur multi-modal open-source capable de générer et simuler des environnements 3D interactifs en seulement 10 minutes. Face aux solutions fermées comme Google Genie 3 ou Marble, cette architecture unifie la création générative et la reconstruction physique rigoureuse via le 3D Gaussian Splatting (3DGS), offrant des exports natifs pour Unity et Unreal Engine.

TL;DR : L’essentiel

Tencent Hunyuan déploie HY-World 2.0 en open-source (poids, code et rapport technique), défiant les plateformes propriétaires Marble (World Labs) et les approches vidéo de Genie 3 (Google DeepMind).
Le temps de génération complet d’un monde 3D explorable est chronométré à 712 secondes (environ 10 minutes) en exploitant l’accélération matérielle des GPU NVIDIA H20.
Le pipeline réduit le volume des Gaussiennes de 73,7 % (de 5,254 millions à 1,383 million) via l’algorithme MaskGaussian sans altérer la fidélité visuelle (maintien d’un PSNR de 25.017).
Les rendus incluent des extractions de maillages TSDF (Truncated Signed Distance Function) via l’algorithme des marching cubes, compatibles avec le développement de jeux vidéo et la robotique incarnée grâce à la détection de collisions.

Le Fonctionnement Technique : De la 2D à la 3D Spatiale en 4 Étapes

We’re open-sourcing HY-World 2.0, a multimodal world model that generates, reconstructs, and simulates interactive *3D worlds* from text, images, and videos.

Outputs can be integrated into game engines and embodied simulation pipelines.

Key highlights:
🔹 One-click world… pic.twitter.com/OuKEm9krn4
— Tencent HY (@TencentHunyuan) April 16, 2026

Le succès de HY-World 2.0 repose sur la division du problème de la génération spatiale en une chaîne d’assemblage algorithmique extrêmement précise, traitant l’information visuelle de la 2D vers une 3D physiquement cohérente.

Initialisation Panoramique avec HY-Pano 2.0

Le processus débute par la conversion d’un texte ou d’une simple image perspective en une sphère visuelle complète. HY-Pano 2.0 utilise un réseau MMDiT (Multi-Modal Diffusion Transformer) pour apprendre de manière autonome la transformation vers la projection équirectangulaire (ERP). Pour éviter les artefacts visuels sur les bords de l’image, le système applique un padding circulaire dans l’espace latent et un mélange de pixels aux frontières, garantissant un environnement à 360° parfaitement jointif.

Planification Navigable via WorldNav

L’étape suivante consiste à cartographier cet environnement virtuel. WorldNav déploie MoGe2 pour extraire un nuage de points panoramique global (Ppan), tandis que Qwen3-VL identifie les repères sémantiques 3D et SAM3 génère les masques 2D. L’espace est ensuite converti en un NavMesh par Recast Navigation. L’algorithme calcule alors jusqu’à 35 trajectoires de caméra distinctes (Regular, Surrounding, Reconstruct-Aware, Wandering, Aerial) pour explorer l’espace virtuellement sans générer de collisions avec le décor.

Expansion Volumétrique avec WorldStereo 2.0

Pour combler les angles morts, WorldStereo 2.0 génère de nouvelles vues le long des 35 trajectoires calculées. Plutôt que de compresser l’information de manière spatio-temporelle (ce qui cause du flou), le modèle utilise un Keyframe-VAE à compression purement spatiale. La cohérence entre toutes ces nouvelles images est maintenue par la mémoire Global-Geometric Memory (GGM) et un module de stitching spatial nommé SSM++, assurant que chaque angle de vue respecte strictement la géométrie globale.

Reconstruction Physique avec WorldMirror 2.0

L’étape finale, la « Composition du Monde », est orchestrée par WorldMirror 2.0. Ce réseau feed-forward agrège les images générées pour construire une scène 3D Gaussian Splatting (3DGS). L’intégration de MaskGaussian permet un filtrage probabiliste drastique via Gumbel-Softmax, éliminant les points inutiles (notamment dans le ciel). Ce module de reconstruction s’avère si performant qu’il propulse le score AUC@30 (précision géométrique) de 66.29 (sur la version 1.0) à 86.89 en haute résolution sur le benchmark RealEstate10K.

Les Cas d’Usage Industriels de HY-World 2.0

The world model race just shifted.

2025 was about generating videos of 3D worlds. 2026 is about generating the actual 3D worlds — editable, engine-ready, shippable.#Tencent's HY-World 2.0 is the latest example: text or image in 👉 real 3D assets out (mesh, Gaussian splatting,… pic.twitter.com/nkGUHfev5b
— Tech Tech China (@techtechchina) April 16, 2026

La mise à disposition de l’architecture HY-World 2.0 en open-source déverrouille des applications critiques pour les développeurs, allant bien au-delà de la simple génération d’images.

Prototypage pour le Développement de Jeux Vidéo

Grâce à l’extraction de maillages via l’algorithme des marching cubes, les développeurs « Indie » ou les studios AAA peuvent importer instantanément les niveaux générés dans des moteurs de jeu de l’industrie. L’environnement n’est pas qu’une texture : la topologie polygonale légère permet une intégration immédiate dans Unity ou Unreal Engine avec une véritable gestion de la gravité et des collisions pour les personnages joueurs (mode Interactive Character).

Simulation pour la Robotique Incarnée

Pour entraîner l’intelligence artificielle des systèmes physiques, HY-World 2.0 sert de générateur de données de Robotics Simulation. Les robots peuvent exploiter le NavMesh et les cartes de profondeur (Depth Maps) générées par WorldMirror 2.0 pour apprendre à naviguer dans des espaces domestiques ou industriels complexes, virtuellement synthétisés à partir de simples prompts textuels.

Cartographie et Jumeaux Numériques

En s’appuyant sur des bases de données réelles (images multi-view), la capacité de reconstruction de WorldMirror 2.0 permet de générer des jumeaux numériques extrêmement précis pour l’Environment Mapping. Le système gère les pixels invalides (bruit de capteur, surfaces transparentes) de manière robuste grâce à une tête de prédiction de masque de profondeur dédiée (entraînée par Binary Cross-Entropy).

Le Positionnement Stratégique : L’Open-Source face aux Géants de l’IA

HY-World 2.0 vs Google Genie 3 : La Géométrie Solide face à l’Illusion Vidéo

Tandis que Google DeepMind a récemment communiqué sur Genie 3, ce modèle est intrinsèquement limité à une approche de génération vidéo conditionnée. Genie 3 « hallucine » un flux vidéo 2D interactif, réagissant aux commandes, mais ne produit aucune véritable topologie spatiale. HY-World 2.0 de Tencent Hunyuan impose une rupture technologique : il crée un maillage 3D réel et un rendu 3DGS physique. L’environnement persiste, peut être exporté, et gère de vraies collisions matérielles, reléguant l’approche vidéo interactive au rang d’illusion optique.

L’Avantage Décisif face à Marble (World Labs)

Lorsqu’il est confronté à Marble, le modèle propriétaire à source fermée de World Labs, HY-World 2.0 démontre une fidélité nettement supérieure aux consignes initiales. Là où Marble souffre souvent de flous prononcés et d’altérations géométriques lors de changements de point de vue radicaux, l’architecture de Tencent maintient une intégrité structurelle parfaite sur des éléments complexes (clôtures, véhicules) tout en garantissant un accès open-source total pour la recherche.

Tableau Comparatif des Modèles Fondateurs Spatiaux

Caractéristique Technique	Genie 3 (Google DeepMind)	Marble (World Labs)	HY-World 2.0 (Tencent) +1
Licence et Accès	Propriétaire / Fermé	Propriétaire / Commercial	Open-Source (Poids & Code)
Format de Sortie	Flux Vidéo Interactif	Rendu 3DGS propriétaire	3DGS, TSDF Mesh, Point Clouds
Géométrie Tangible	Non (Illusion 2D)	Oui	Oui (NavMesh et Collisions)
Temps d’Inférence	Temps réel (Résolution adaptative)	Non communiqué	712 s (GPU NVIDIA H20)
Méthode d’Expansion	Prédiction de frames latentes	Inconnue	Keyframe-VAE + SSM++ Memory