Générateurs de vidéos : les meilleures IA pour créer une vidéo avec un prompt

Bastien L. 21 juin 2024 13 minutes de lecture Dossiers, IA générative, Intelligence artificielle

Grâce aux générateurs de vidéos IA, n'importe qui peut désormais créer ses propres vidéos très facilement à partir d'un prompt. Que vous souhaitiez produire des vidéos de formation pour votre entreprise, agrémenter votre blog ou site web, ou encore devenir YouTuber, découvrez les meilleurs outils !

Le contenu vidéo est devenu omniprésent dans la sphère numérique, et incontournable pour les entreprises et les créateurs de contenu.

On estime que les vidéos représentent désormais plus de 80% du trafic sur le web. De plus en plus d'internautes préfèrent ce format plutôt que les textes et les images. Elles offrent aussi une meilleure portée organique sur les réseaux sociaux.

Toutefois, la production et la diffusion de vidéo coûtent plus cher et prennent plus de temps. Du moins, c'était le cas jusqu'à présent.

Désormais, l'intelligence artificielle change la donne ! Jamais auparavant il n'avait été aussi simple de créer des vidéos grâce aux générateurs IA.

Après les outils de génération d'image Text-to-Art comme DALL-E ou MidJourney, on assiste à une nouvelle vague d'IA permettant de créer une vidéo à partir d'un prompt textuel.

Et cette technologie est en plein essor : selon Gminsights, le marché du text-to-video devrait croître de 35% entre 2023 et 2032. Voici les meilleurs outils du marché !

OpenAI Sora

En février 2024, OpenAI a surpris tout le monde en dévoilant Sora : un générateur de vidéos qui a une longueur d'avance incroyable sur tous les autres outils de ce dossier.

À partir d'un simple prompt, cette IA peut créer une vidéo d'une durée maximale de 60 secondes. Elle peut produire des vidéos photoréalistes, des dessins animés, des clips musicaux, des scènes de jeu vidéo ou même des environnements 3D.

Il est possible de décrire le contenu, le style ou même les mouvements de caméra dans le prompt. L'intelligence artificielle se charge de générer une vidéo correspondant à la requête, avec une impressionnante fidélité.

Elle peut également animer des images fixes, ou encore modifier une vidéo existante sur demande. Vous pouvez par exemple changer le décor, les personnages ou n'importe quel autre élément.

Le fonctionnement de Sora repose à la fois sur le modèle de diffusion du générateur d'images DALL-E 3 et sur le Transformer de ChatGPT.

Malheureusement, Sora n'est pas encore disponible pour le grand public. Avant de lancer cet outil, OpenAI veut le faire tester par des experts en sécurité pour anticiper toutes les dérives possibles et mettre en place des garde-fous…

Luma AI Dream Machine

La startup américaine Luma AI a lancé sa Dream Machine en juin 2024, permettant enfin à n'importe qui de créer des vidéos avec l'IA.

Vous pouvez non seulement générer des vidéos à partir de prompts, mais aussi uploader une image pour l'animer.

Ceci permet de donner vie aux images que vous avez créées avec des outils comme DALL-E ou MidJourney. Certains s'amusent aussi à laisser l'IA imaginer la suite de memes bien connus ou d'œuvres d'art célèbres…

Selon les testeurs beta, l'outil peut reproduire fidèlement des objets, des personnages, des actions ou des environnements spécifiques tout en maintenant un mouvement et une narration fluides et cohérents.

A terme, l'objectif de Luma est de créer un « moteur d'imagination universel » capable de « rêver » n'importe quel concept en vidéo. Ses cas d'usage pourraient être le storyboarding ou la création de personnages, de clips vidéo, voire même de films complets…

Pour tester dès à présent la Dream Machine, il vous suffit de vous rendre sur le site web officiel de Luma Labs. Inscrivez-vous avec votre compte Google, et commencez à créer vos vidéos ! Consultez notre tutoriel complet en suivant ce lien !

Runway Gen-3

Pionnier des IA de génération de vidéo, Runway a dévoilé son modèle Gen-3 en juin 2024. Cette nouvelle version apporte d'importantes améliorations en termes de fidélité, de cohérence et de mouvement.

Pour rappel, Runway Gen-2 était le tout premier modèle IA text-to-video disponible dans le commerce, avec un lancement en juin 2023.

Depuis lors, de nombreux concurrents ont fait leur apparition et Runway s'est fait dépassé. Avec Gen-3, la firme américaine compte bien faire son grand retour sur le devant de la scène.

Ce modèle se base sur une toute nouvelle infrastructure conçue pour l'entraînement multimodal à grande échelle, et a été entraîné simultanément sur des images et des vidéos pour un réalisme accru.

Il permet aux utilisateurs de mieux contrôler le mouvement dans les vidéos, et peut comprendre les lois de la physique. Alors que la Gen-2 permettait de créer des vidéos de 4 secondes, la durée maximale a été étendue à 10 secondes.

La version Alpha sera ouverte aux abonnés dans le courant juin 2024, puis ultérieurement pour les utilisateurs de la version gratuite. Par la suite, d'autres modèles encore plus puissants basés sur la même infrastructure seront lancés…

Introducing Gen-3 Alpha: Runway's new base model for video generation.

Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf

(1/10) pic.twitter.com/VjEG2ocLZ8
— Runway (@runwayml) June 17, 2024

Kling

La startup chinoise Kuaishou Technology a dévoilé son générateur de vidéo Kling début juin 2024. Rapidement, cet outil a rencontré un succès viral sur les réseaux sociaux.

Les vidéos qu'il génère à partir de simples prompts sont très réalistes, et rivalisent même avec celles créées par OpenAI Sora.

Si Kling est très rapidement populaire, c'est aussi parce que Kuaishou est déjà connu en Chine pour son application de création de vidéos qui compte 400 millions d'utilisateurs quotidiens.

Cette appli se hisse en deuxième position du marché chinois, juste derrière Douyin (la version chinoise de TikTok) et ses 600 millions d'utilisateurs.

Encore en phase de test, Kling peut transformer des textes en clips vidéo d'une durée maximale de 2 minutes en définition 1080p.

Sora by OpenAI is insane.

But KWAI just dropped a Sora-like model called KLING, and people are going crazy over it.

Here are 10 wild examples you don't want to miss:

1. A Chinese man sits at a table and eats noodles with chopstickspic.twitter.com/MIV5IP3fyQ
— Angry Tom (@AngryTomtweets) June 6, 2024

Il peut prendre en charge plusieurs ratios d'aspect, interpréter les prompts pour créer des vidéos imitant le monde physique et faire preuve d'imagination, selon ses créateurs.

Sa technologie repose sur un encodeur automatique variationnel 3D (VAE) pour la reconstruction faciale et corporelle, permettant de représenter des expressions détaillées et des mouvements de membres à partir d'une seule photo de corps.

Par ailleurs, un mécanisme d'attention conjointe spatio-temporelle 3D permet au modèle de prendre en charge des scènes et des mouvements complexes et assure que le contenu généré adhère aux lois de la physique.

En Chine, il est d'ores et déjà possible d'utiliser Kling gratuitement via les applications Kuaishou, Kwai et KwaiCut. Malheureusement, un numéro de téléphone chinois est indispensable et vous ne pouvez donc pas le tester en France.

Vidu

Le paysage de l'intelligence artificielle voit l'émergence d'un nouvel acteur prometteur avec l'arrivée de Vidu, un générateur texte-vidéo développé par la société chinoise Shengshu. Présenté comme un outil hautement cohérent, dynamique et compétent, Vidu vise à révolutionner la création de contenu visuel à partir de simples textes.

Grâce à son modèle de diffusion basé sur U-ViT, il peut produire des vidéos en 1080p jusqu'à 16 secondes en une seule génération. Cette capacité à gérer des vidéos de longue durée avec efficacité en fait un outil précieux pour les créateurs de contenu et les professionnels de l'audiovisuel.

Ce qui distingue Vidu, c'est sa capacité à maintenir une cohérence narrative tout en offrant un dynamisme visuel captivant. Grâce à des algorithmes sophistiqués, il est capable de générer des scènes réalistes et imaginatives, rivalisant ainsi avec les meilleurs générateurs de vidéos disponibles sur le marché.

La polyvalence de Vidu se manifeste également dans sa compréhension des techniques de photographie professionnelle, lui permettant de créer des vidéos esthétiquement riches et engageantes. De plus, ses fonctionnalités avancées ouvrent la voie à des expériences de génération vidéo contrôlables, telles que la génération astucieuse en vidéo, la prédiction vidéo et la génération axée sur le sujet, avec des résultats prometteurs.

Pika

Créée en juin 2023, l'entreprise Pika AI a lancé son logiciel Pika 1.0 six mois plus tard. Son but ? Permettre à n'importe qui de créer des vidéos de qualité professionnelle sans le moindre effort pour donner vie à ses idées.

Il permet de créer des vidéos dans différents styles comme l'animation 3D, l'animation japonaise, les cartoons ou encore les séquences cinématiques. Par la suite, l'utilisateur peut éditer ou modifier ses vidéos de différentes façons.

Il est par exemple possible d'altérer les dimensions ou la longueur de la vidéo, et de modifier des éléments tels que les décors ou les personnes et leurs vêtements.

En parallèle, Pika propose aussi des fonctionnalités de conversion Text-to-Video, Image-to-Video, ou encore Video-to-Video. L'interface est très intuitive, afin d'être accessible au plus grand nombre.

Cet outil est disponible directement via le site web officiel, et rassemble déjà une communauté vibrante de plus de 500 000 utilisateurs produisant chaque semaine des millions de vidéos.

HeyGen

Avec la plateforme HeyGen, vous pouvez créer des vidéos d'entreprise en toute simplicité à l'aide de l'IA générative pour une large variété de cas d'usage.

Les utilisateurs peuvent convertir leur texte en vidéo professionnelle en quelques minutes, directement depuis un navigateur web.

Enregistrez votre voix pour créer un avatar personnalisé reprenant le discours dans la langue de votre choix, ou tapez le texte. Vous pouvez choisir parmi plus de 300 voix d'avatars !

De nombreuses options de personnalisations sont disponibles, et vous pourrez notamment combiner plusieurs scènes en une seule vidéo. Il est également possible d'ajouter de la musique.

Modelscope

"Will Smith eating spaghetti" generated by Modelscope text2video

credit: u/chaindrop from r/StableDiffusion pic.twitter.com/ER3hZC0lJN
— Magus Wazir (@MagusWazir) March 28, 2023

Développé par la communauté de développeurs de Hugging Face, ModelScope Text To Video Synthesis est un outil permettant de créer des vidéos à partir d'un input textuel grâce à un modèle de Deep Learning.

Cette application est conçue pour être facile d'usage, et ne requiert aucune connaissance ou expérience en Machine Learning. Elle est accessible directement depuis la plateforme Hugging Face Space, où les utilisateurs peuvent découvrir de nombreux outils, modèles, datasets et documents de ML.

Ce générateur utilise différents modèles et fichiers pour générer des vidéos de haute qualité. Il peut être particulièrement utile pour les individus ou entreprises cherchant à automatiser la création de vidéo pour le marketing ou la publicité.

Vous pouvez créer des vidéos de format court, du texte animé, ou différents autres types de contenus. Il s'agit toutefois d'une solution limitée, dont le principal point fort est l'intégration avec les autres applications Hugging Face Space !

New open source text to video AI model

576×320 model: https://t.co/fhN2cw2tOn
1024×576: https://t.co/OK7IutR1tF

zeroscope_v2_576w, A watermark-free Modelscope-based video model optimized for producing high-quality 16:9 compositions and a smooth video output. This model was… pic.twitter.com/2w6eYBtUUD
— AK (@_akhaliq) June 24, 2023

Stable Video Diffusion

Lancé en novembre 2023, Stable Video Diffusion est un générateur de vidéos créé par Stability AI a qui l'ont doit déjà le générateur d'images Stable Diffusion.

Il permet de transformer n'importe quelle image en courte vidéo. Plutôt qu'un véritable outil, ce projet expérimental repose sur deux modèles IA utilisant une technique appelée image-to-video.

Le premier modèle dénommé SVP produit une synthèse image-to-video d'une longueur de 14 images, et le second SVD-XT génère 25 images.

Ils peuvent fonctionner à une vitesse variée allant de 3 à 30 images par seconde, et produisent des vidéos de 2 à 4 secondes au format MP4 d'une définition de 576×1024.

Today, we are releasing Stable Video Diffusion, our first foundation model for generative AI video based on the image model, @StableDiffusion. As part of this research preview, the code, weights, and research paper are now available.

Additionally, today you can sign up for our… pic.twitter.com/0MbV5DDPt2
— Stability AI (@StabilityAI) November 21, 2023

Les animations générées gardent une partie de l'image statique, et ajoutent des effets de panning,de zoom ou de mouvement.

Vous pouvez l'exécuter localement sur un ordinateur doté d'un GPU Nvidia. Comptez environ 30 minutes pour générer une vidéo de 14 images avec une carte RTX 3060.

Les services cloud comme Hugging Face ou Replicate permettent toutefois d'aller beaucoup plus rapidement. Stability insiste sur le fait qu'il s'agit d'un modèle de recherche qui n'en est encore qu'à ses débuts.

On ne sait pas exactement sur quelles vidéos l'IA a été entraînée, mais le document officiel précise que plus de 600 millions d'échantillons ont été agrégés sur le Large Video Dataset (LVD) constitué de 580 millions de clips annotés pour une durée totale de 212 ans.

Today, we are adding Stable Video Diffusion, our foundation model for generative video to the Stability AI Developer Platform API.

The model can generate 2 seconds of video, comprising of 25 generated frames and 24 frames of FILM interpolation, within an average time of 41… pic.twitter.com/CSUh3BoZ1a
— Stability AI (@StabilityAI) December 20, 2023

Leonardo AI Motion

En janvier 2024, le générateur d'images Leonardo AI s'est enrichi d'un nouvel outil de génération de vidéo basé sur Stable Video Diffusion.

Cet outil dénommé Motion permet de transformer une image générée en petit clip vidéo. Et les résultats sont impressionnants.

Les vidéos durent entre trois et quatre secondes. En revanche, il n'est pas encore possible d'étendre leur durée comme avec Pika et Runway.

Utiliser Motion est très simple. Il suffit de cliquer sur un bouton, comme pour remixer ou upscaler les images.

👀 pic.twitter.com/Eyo0DeZnfy
— Leonardo.Ai (@LeonardoAi_) December 28, 2023

Une option permet de contrôler la quantité de mouvement, mais c'est le seul contrôle proposé pour le moment. Toutefois, l'interprétation de l'image et la qualité de l'animation sont bluffantes.

Le modèle Stable Video Diffusion est ici combiné à la fonctionnalité Realtime Gen basée sur SDXL Turbo pour générer en même temps que vous tapez le prompt, afin de tester des idées sans avoir besoin d'attendre l'image complète.

Il est possible de rendre une vidéo privée ou de la rendre disponible sur un flux public pour que les autres utilisateurs puissent la trouver. Les vidéos sont au format MP4, et chaque génération coûte 25 crédits.

En décembre, la startup Leonardo avait levé 31 millions de dollars pour développer ses services. C'est ce qui lui a permis de s'aventurer dans le domaine de la génération de vidéos !

WALT

WALT is a new, groundbreaking Text-to-Video approach from Stanford & Google researchers with a transformer-based diffusion model for photorealistic video generation! 🌟

Link 👇 pic.twitter.com/ULy3aGuarh
— René Schulte (@rschu) December 13, 2023

Développé par des chercheurs de l'Université de Stanford, WALT est un modèle IA capable de créer une vidéo photoréaliste à partir d'un prompt textuel ou d'une image.

Par rapport aux autres outils existants, l'une des prouesses de l'équipe est d'être parvenue à créer du mouvement 3D fluide et cohérent sur un objet.

Pour atteindre ce niveau de qualité, l'IA a été entraînée à la fois à partir de photos et de vidéos. Ceci a permis de donner au modèle une compréhension approfondie du mouvement dès le départ.

La qualité d'image est nettement inférieure à celle d'outils comme Runway ou Pika, mais il s'agit seulement d'un modèle de recherche.

Le modèle produit d'abord des clips 128×128, qui sont ensuite upsamplés pour atteindre une définition de 512×896 à 8 images par seconde. À titre comparatif, la version payante de Runway Gen-2 peut créer des clips jusqu'à 1536×896.

L'objectif de ces chercheurs est de créer un framework unifié de génération de vidéo et d'images afin de refermer le fossé qui sépare ces deux technologies en termes de progrès effectués.

En guise de démonstration, Stanford a partagé des clips de dragons crachant du feu, d'astéroïdes frappant la Terre et de chevaux courant sur une plage.

Google VideoPoet

Développé par Google, VideoPoet est un outil de génération de vidéo basé sur MAGVIT 2 : un puissant encodeur transformant les prompts en vidéos.

Son architecture de transformer « decoder-only » offre des capacités zero-shot et permet de créer du contenu pour lequel il n'a pas été entraîné spécifiquement.

Il permet donc de créer des vidéos de durée variable, avec beaucoup de mouvement fluide et captivant. Les contenus présentent une haute cohérence.

Son modèle de langage autorégressif entraîné sur de la vidéo, du texte, de l'image et de l'audio peut s'adapter à toutes les tâches de génération de contenu.

Il suit un processus d'entraînement en deux étapes, à la manière des autres LLM : un pré-entraînement, et une adaptation à des tâches spécifiques. C'est ce qui le rend adaptable et efficace.

En tant qu'IA multimodale, VideoPoet accepte divers inputs tels que texte, des images, des vidéos ou de l'audio. Il est possible d'utiliser tous ces types de contenus en guise de prompt, et de générer un nouveau contenu. C'est donc un générateur « any-to-any ».

On retrouve également des fonctionnalités de stylisation, d'inpainting ou d'outpainting. Les possibilités de personnalisation sont nombreuses, avec notamment l'option de contrôler le mouvement de la caméra.

Malheureusement, à l'heure actuelle, il n'est pas encore possible pour le grand public d'utiliser Google VideoPoet. Vous pouvez le découvrir sur le site de démonstration en suivant ce lien, ou vous plonger dans le document publié par les chercheurs !

Google just launched VideoPoet!

And what it can do is impressive:

– Inpainting
– Video Editing
– Text-to-Video
– Image-to-Video

Here are 10 awesome examples: pic.twitter.com/nzDOnkfUV4
— There's An AI For That (@theresanaiforit) January 25, 2024

Meta Make-a-Video

Dévoilé en septembre 2022 par Meta, Make-A-Video est un générateur de vidéo propulsé par l'IA. Il permet de créer du contenu vidéo à partir de prompts textuels ou d'images.

Cet outil peut aussi produire des variantes de vidéos existantes. Toutefois, il n'est pas encore disponible pour le grand public.

Plusieurs démonstrations ont été publiées par la firme en guise d'exemples. On peut notamment découvrir un jeune couple marchant sous la pluie, et un ours en peluche peignant un portrait.

La page de présentation met aussi en lumière la capacité de Make-A-Video à animer une image source statique. Par exemple, une tortue de mer sur une photo semble nage après avoir été traitée par l'IA.

La technologie derrière Make-A-Video est basée sur les outils existants dans le domaine du text-to-image tels que DALL-E. En juillet 2022, Meta avait annoncé son propre générateur d'images dénommé Make-A-Scene.

Au lieu d'entraîner son modèle sur des données de vidéo étiquetées, avec des légendes décrivant les actions présentées, la firme a pris les données de synthèse d'image et a appliqué des données d'entraînement vidéo pour que le modèle comprenne où un prompt de texte ou d'image peut exister dans le temps et l'espace.

Ainsi, l'IA peut maintenant prédire ce qui survient après l'image et afficher la scène en mouvement pendant une courte période. Les couches spatiales ont donc été étendues pour inclure les informations temporelles.

De nouveaux modules d'attention ont appris les dynamiques du monde temporel à partir d'une collection de vidéos. C'est ce qui a permis de créer cet outil dès 2022.

Le chercheur Simon Willison a néanmoins découvert que le dataset utilisé pour entraîner l'IA contient 10 millions de vidéos récupérés sur Shutterstock sans permission. De son côté, Andy Baio a remarqué 3,3 millions de vidéos additionnels provenant de YouTube…

Toutefois, pour l'heure, Meta n'a pas encore annoncé quand cette IA serait disponible pour le public ou qui y aurait accès. Un formulaire est disponible pour s'inscrire à la liste d'attente.

Cependant, la firme de Mark Zuckerberg anticipe déjà les risques liés à un tel logiciel. Sur la page officielle, elle explique qu'une watermark va permettre de s'assurer que les spectateurs sachent que la vidéo est générée par IA…

Le futur : ChatGPT et MidJourney pourront bientôt créer des vidéos

Après la génération d'images, MidJourney a annoncé le lancement prochain d'un générateur de vidéos. Selon le CEO David Holz, l'entraînement de ce nouveau modèle a commencé en janvier 2024.

L'outil sera lancé dans quelques mois, et pourrait bien s'imposer comme la nouvelle référence du marché s'il est aussi performant que pour les images.

En parallèle, lors d'une interview avec Bill Gates, le CEO d'OpenAI, Sam Altman, a lui aussi annoncé que le futur GPT-5 serait capable de générer des vidéos.

Cela confirme que la création de vidéos est la prochaine étape de l'IA générative, et que les meilleurs outils restent à venir avec l'irruption des plus grands géants de l'industrie sur ce secteur !

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

Bill Gates ChatGPT Cloud DALL-E Google GPT Hugging Face Mark Zuckerberg Meta Midjourney Nvidia OpenAI Sam Altman Stable Diffusion TEST Twitter

Sur le même sujet

Newsletter

Laisser un commentaire