Une équipe de Chinois est parvenue à créer The Matrix dans le monde réel : une IA capable de simuler des mondes interactifs, réalistes et en temps réel grâce à un entraînement basé sur des jeux vidéo et des images du monde réel !
Il existe déjà de nombreux modèles IA permettant de générer des vidéos, mais ces outils peinent à produire des simulations en temps réel de haute qualité et de longue durée.
En plus de nécessiter une puissance de calcul massive, ces modèles se contentent de générer des vidéos de courte durée et n’offrent aucune interactivité
Ces limitations restreignent fortement le potentiel d’utilisation pratique de nombreuses IA existantes, telles que OpenAI Sora ou Google Genie.
Une alternative serait l’utilisation d’assets configurés manuellement, comme dans le développement de jeux vidéo AAA, mais elle est trop coûteuse pour la production de vidéo à grande échelle.
Face à ces obstacles, une approche plus réaliste et évolutive semble indispensable. Et c’est précisément ce que propose une équipe de chercheurs chinois avec The Matrix !
Une IA nourrie aux jeux vidéo et aux images du monde réel
Introducing The Matrix — a foundation world model for generating infinite-length, hyper-realistic videos with real-time, frame-level control:
– Infinite-length video generation
– 720p high-quality rendering
– Real-time, frame-level control at 16 FPS
– Generalization to… pic.twitter.com/84EvrDOmZT— Hongyang Zhang ✈️ NeurIPS (@hongyangzh) November 20, 2024
Développé par des chercheurs de Alibaba, l’Université de Hong Kong et l’Université de Waterloo, ce modèle permet de générer des vidéos d’une durée illimitée avec un contrôle de chaque image en temps réel.
Il surmonte la plupart des défis auxquels sont confrontés les modèles traditionnels, et peut produire des flux de vidéos en 720p répliquant les environnements du monde réel comme un paysage urbain ou un terrain naturel.
Contrairement aux simulateurs traditionnels qui requièrent une configuration manuelle très poussée, The Matrix exploite l’apprentissage supervisé et non supervisé à partir de sources de données telles que les jeux AAA et les vidéos capturées dans le monde réel.
Parmi les jeux dont il s’est nourri, on compte Forza Horizon 5 et Cyberpunk 2077. Cette approche permet au modèle de naviguer à la fois dans les environnements virtuels et réels de manière totalement fluide !
Par exemple, il est capable de simuler la conduite d’une BMW X3 dans un environnement de bureau sans même qu’une telle scène ne figure dans son jeu de données d’entraînement.
Sous le capot : Diffusion Transformer et Module Interactif !
Basé sur un modèle Diffusion Transformer (DiT), The Matrix est capable de produire du contenu vidéo fluide en haute définition en continu.
Cette prouesse est rendue possible grâce à une innovation clé : le « Swin-DPM », ou Shift-Windows Denoise Process Model.
C’est cette technologie qui permet la génération de vidéos d’une durée infinie, en gérant efficacement les mécanismes d’attention requis pour les longues séquences vidéo.
Ce processus fonctionne en tandem avec le Module Interactif, qui incorpore des commandes d’utilisateur (telles que des commandes de clavier) pour influencer dynamiquement le contenu vidéo généré.
Le résultat ? Un modèle délivrant une simulation de haute qualité avec contrôle en temps réel, à une vitesse maximale de 16 images par seconde !
En termes de qualité visuelle et de précision de contrôle, il atteint un score MOVE-PSNR (Peak Signal-to-Noise Ratio) d’environ 28,98 dans certaines conditions.
Une révolution pour le jeu vidéo, les voitures autonomes et la VR ?
Sans aucun entraînement additionnel, The Matrix peut généraliser à partir d’environnements de jeux sur des contextes du monde réel. Ceci en fait un outil polyvalent pour la création de simulations interactives.
Il est potentiellement très utile pour l’industrie du jeu vidéo, la simulation de véhicules autonomes, les expériences de réalité virtuelle et bien plus encore.
Par sa capacité à combler le fossé entre les environnements réels et simulés, The Matrix est un précieux atout pour la modélisation de monde.
Son évolutivité réduit le coût de génération de simulations interactives, éliminant le besoin d’environnements créés à la main.
Cerise sur le gâteau : il s’agit d’un outil open source, que d’autres développeurs pourront adapter pour continuer à innover encore davantage…
Je pense personnellement que la technologie évolue très rapidement vers l’émergence d’IA capables de créer des jeux vidéo à partir d’un simple prompt textuel entré par l’utilisateur.
Ces modèles permettront aussi de créer des simulations qui nous aideront à mieux comprendre et anticiper le monde réel.
Et vous, qu’en pensez-vous ? Êtes-vous impressionné par The Matrix ? Dans combien de temps l’IA sera-t-elle capable de simuler des mondes entiers ? Partagez votre avis en commentaire !
- Partager l'article :
Idéal pour occuper les useless eaters du WEF et de Harari