Meta VideoJam : cette nouvelle IA améliore les vidéos créées par IA

À première vue, les vidéos générées par l’IA se sont largement améliorées. Mais malgré ces avancées notables, un problème persiste : le mouvement. 

Entre les bras qui se tordent, les rotations surréalistes et les personnages qui semblent flotter plutôt que marcher, les modèles actuels ont encore du mal à rendre les déplacements naturels. Heureusement, AI a une solution à nous proposer : VideoJAM.

Meta vous présente VideoJAM 

Les modèles génératifs de vidéo ont longtemps été obsédés par la beauté des pixels, oubliant un petit détail crucial : le mouvement. Ce qui engendre des incohérences comme des physiques irréalistes, images manquantes ou distorsions dans les séquences complexes. 

YouTube video

D’ailleurs, les rotations, les actions dynamiques comme la gymnastique ou les interactions avec des objets restent particulièrement problématiques. 

Résoudre ces lacunes est alors essentiel pour améliorer le réalisme des vidéos générées par IA. Surtout à mesure qu’elles s’intègrent dans des domaines créatifs et professionnels.

Et c’est exactement dans ce but que Meta AI a conçu VideoJAM. Il s’agit d’un framework conçu pour renforcer la représentation du mouvement dans les modèles de génération vidéo. 

Contrairement aux approches traditionnelles qui traitent le mouvement comme un élément secondaire, VideoJAM l’intègre directement dans l’apprentissage et l’inférence. Ce changement permet une meilleure fluidité et cohérence des séquences sans nécessiter de modifications lourdes des modèles existants.

Techniquement, VideoJAM repose sur deux étapes clés. Lors de la phase d’apprentissage, une vidéo et sa représentation du mouvement sont bruitées, puis fusionnées dans une unique représentation latente via une couche linéaire. 

Un modèle de diffusion traite cette donnée intégrée et deux couches de projection linéaire prédisent à la fois les composants d’apparence et de mouvement. Cette approche permet d’équilibrer fidélité visuelle et fluidité du déplacement, tout en atténuant le compromis habituel entre ces deux aspects.

Pendant la phase d’inférence, VideoJAM introduit un mécanisme de guidage interne. Plutôt que de s’appuyer sur des signaux externes fixes, le modèle ajuste dynamiquement sa propre représentation du mouvement à mesure qu’il génère la vidéo. Ce qui améliore la continuité des images, rendant les transitions plus naturelles.

Qu’est-ce que ça donne ?

Les évaluations montrent des progrès significatifs. Comparé aux modèles établis comme Sora ou Kling, VideoJAM réduit les artefacts visuels, notamment les distorsions d’image et les déformations d’objets. 

YouTube video

Il améliore aussi la cohérence du mouvement, validée à la fois par des évaluations automatisées et des tests humains. De plus, sa compatibilité avec divers modèles vidéo pré-entraînés prouve sa flexibilité sans nécessiter un retraining massif. 

Un autre atout majeur est sa légèreté : avec seulement deux couches linéaires supplémentaires, VideoJAM optimise le rendu du mouvement sans alourdir l’architecture du modèle.

Personnellement, je pense qu’en intégrant le mouvement comme un élément central plutôt qu’une considération annexe, VideoJAM apporte une solution efficace aux limitations actuelles des modèles génératifs

Grâce à sa représentation conjointe apparence-mouvement et son guidage interne, il permet de produire des vidéos plus réalistes et fluides. Sa facilité d’implémentation en fait une avancée majeure pour la génération vidéo par IA, ouvrant la voie à des applications plus fiables et immersives dans des domaines allant du divertissement à la production professionnelle.

Et vous, qu’est-ce que vous en dites ? Partagez votre avis dans le commentaire !

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥