Créé par des chercheurs de Stanford University, WALT est une nouvelle IA de génération de vidéo. Contrairement aux outils existants comme Runway, elle est non seulement capable de créer une vidéo à partir d’un texte, mais aussi de transformer une image en vidéo !
Depuis un peu plus d’un an, nous sommes nombreux à utiliser les outils d’IA générative comme DALL-E ou MidJourney pour créer des images à partir de prompts textuels ! Toutefois, il ne s’agit que d’un début dans la révolution de l’intelligence artificielle.
Cette technologie évolue extrêmement vite, et vous ne réalisez probablement pas les évolutions formidables qui nous attendent pour les prochains mois. Parmi ces progrès majeurs, on compte les IA génératives de vidéos.
Il existe déjà des solutions permettant de créer une vidéo à partir d’un prompt, comme Runway et Meta Make-A-Video, ou encore Google VideoPoet mais elles en sont encore à leurs balbutiements et moins impressionnantes que les générateurs d’image.
Ce n’est toutefois qu’une question de temps avant qu’il soit possible de créer une vidéo YouTube, ou même un film complet en tapant simplement quelques mots sur son clavier.
De son côté, le modèle d’IA WALT propose une approche un peu différente mais tout aussi impressionnante. En plus de permettre de générer une vidéo à partir d’un prompt, il est capable de transformer une image en vidéo photoréaliste !
Plusieurs clips ont été diffusés en guise de démonstration, et on peut notamment découvrir un dragon crachant des flammes, des astéroïdes frappant la Terre de plein fouet ou des chevaux galopant sur l a plage.
Cette IA est créée par une équipe de la Stanford University, et brille par sa capacité à créer du mouvement 3D cohérent sur un objet statistique à partir d’un prompt en langage naturel.
Une IA entraînée à la fois sur des vidéos et des images
On dénombre déjà plusieurs IA de génération d’images, créées par Pika Labs, Runway, Meta ou encore StabilityAI. Les performances varient d’un modèle à l’autre, notamment en termes de fluidité, de cohérence et de qualité.
Toutefois, comme l’explique le chercheur à l’origine de WALT, Agrim Gupta, cette IA se distingue par sa capacité à générer des vidéos à partir de texte ou d’images et peut être utilisée pour l’animation 3D.
Selon ses dires, « bien que l’IA générative ait fait de grands progrès pour l’image, les progrès sur la génération de vidéo sont à la traîne ». Il est convaincu qu’un framework unifié refermera le fossé entre génération d’image et vidéo.
Cette intelligence artificielle a été entraînée à partir de photographies et de clips vidéo stockés au sein du même espace. Ceci a permis de l’entraîner dès le départ sur ces deux types de contenu, conférant au modèle une compréhension plus profonde de la notion de mouvement.
Conçue pour être scalable et efficace, WALT peut fournir des résultats d’excellente qualité avec trois modèles couvrant l’image et la vidéo. Ainsi, la définition est accrue et le mouvement cohérent.
WALT vs Runway et Pika Labs : le meilleur générateur de vidéo IA ?
Grâce à cette approche innovante, WALT semble un cran au-dessus de la concurrence dans le domaine de la génération de vidéo. C’est tout particulièrement le cas en ce qui concerne le mouvement 3D.
La qualité du résultat est néanmoins en dessous de celle de Runway ou Pika Labs, mais ce n’est qu’un début. Cette IA de recherche est conçue pour s’améliorer.
Le modèle de base produit de petits clips de 128 x 128, qui sont ensuite « upsamplés » pour une définition de 512×896 à huit images par seconde.
En comparaison, Runway Gen-2 crée des clips de vidéos allant jusqu’à 1536×896, mais exige un abonnement payant. La version de base gratuite produit des vidéos 768×448, soit une définition inférieure à WALT.
Néanmoins, Runway et Pika Labs peuvent générer jusqu’à 24 images par seconde. C’est une fréquence beaucoup plus proche d’une véritable vidéo filmée par l’humain. Reste à voir comment WALT va s’améliorer au fil des futures versions…
- Partager l'article :