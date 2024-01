Grâce aux générateurs de vidéos IA, n’importe qui peut désormais créer ses propres vidéos très facilement à partir d’un prompt. Que vous souhaitiez produire des vidéos de formation pour votre entreprise, agrémenter votre blog ou site web, ou encore devenir YouTuber, découvrez les meilleurs outils !

Le contenu vidéo est devenu omniprésent dans la sphère numérique, et incontournable pour les entreprises et les créateurs de contenu.

On estime que les vidéos représentent désormais plus de 80% du trafic sur le web. De plus en plus d’internautes préfèrent ce format plutôt que les textes et les images. Elles offrent aussi une meilleure portée organique sur les réseaux sociaux.

Toutefois, la production et la diffusion de vidéo coûtent plus cher et prennent plus de temps. Du moins, c’était le cas jusqu’à présent.

Désormais, l’intelligence artificielle change la donne ! Jamais auparavant il n’avait été aussi simple de créer des vidéos grâce aux générateurs IA.

Après les outils de génération d’image Text-to-Art comme DALL-E ou MidJourney, on assiste à une nouvelle vague d’IA permettant de créer une vidéo à partir d’un prompt textuel.

Et cette technologie est en plein essor : selon Gminsights, le marché du text-to-video devrait croître de 35% entre 2023 et 2032. Voici les meilleurs outils du marché !

Runway Gen-2

Créée par une startup basée à New York et soutenue par Google, Runway AI est une collection d’outils basés sur l’intelligence artificielle. Parmi ses solutions, Runway Gen-1 est un générateur video-to-video, tandis que Runway Gen-2 est un générateur text/image-to-video.

Tous ces outils sont disponibles directement sur le site web officiel ou l’application Runway ML. Il suffit d’en choisir un, d’entrer vos prompts, et de modifier les réglages pour générer votre vidéo.

Quelques minutes suffisent. Même si le résultat peut présenter des imperfections, la technologie est déjà impressionnante.

La plateforme propose d’autres outils comme un générateur Image-to-Image, la suppression ou le remix d’arrière-plan, des fonctionnalités d’extension d’image, la capture 3D, l’inpainting ou même la possibilité d’entraîner votre propre générateur.

La version d’essai est gratuite, avec 100 secondes de génération vidéo. Pour aller plus loin, vous devrez souscrire à l’un des forfaits qui commencent à 625 crédits par mois pour 15 dollars.

Pika

Créée en juin 2023, l’entreprise Pika AI a lancé son logiciel Pika 1.0 six mois plus tard. Son but ? Permettre à n’importe qui de créer des vidéos de qualité professionnelle sans le moindre effort pour donner vie à ses idées.

Il permet de créer des vidéos dans différents styles comme l’animation 3D, l’animation japonaise, les cartoons ou encore les séquences cinématiques. Par la suite, l’utilisateur peut éditer ou modifier ses vidéos de différentes façons.

Il est par exemple possible d’altérer les dimensions ou la longueur de la vidéo, et de modifier des éléments tels que les décors ou les personnes et leurs vêtements.

En parallèle, Pika propose aussi des fonctionnalités de conversion Text-to-Video, Image-to-Video, ou encore Video-to-Video. L’interface est très intuitive, afin d’être accessible au plus grand nombre.

Cet outil est disponible directement via le site web officiel, et rassemble déjà une communauté vibrante de plus de 500 000 utilisateurs produisant chaque semaine des millions de vidéos.

HeyGen

Avec la plateforme HeyGen, vous pouvez créer des vidéos d’entreprise en toute simplicité à l’aide de l’IA générative pour une large variété de cas d’usage.

Les utilisateurs peuvent convertir leur texte en vidéo professionnelle en quelques minutes, directement depuis un navigateur web.

Enregistrez votre voix pour créer un avatar personnalisé reprenant le discours dans la langue de votre choix, ou tapez le texte. Vous pouvez choisir parmi plus de 300 voix d’avatars !

De nombreuses options de personnalisations sont disponibles, et vous pourrez notamment combiner plusieurs scènes en une seule vidéo. Il est également possible d’ajouter de la musique.

Modelscope

"Will Smith eating spaghetti" generated by Modelscope text2video



credit: u/chaindrop from r/StableDiffusion pic.twitter.com/ER3hZC0lJN — Magus Wazir – frwc (@MagusWazir) March 28, 2023

Développé par la communauté de développeurs de Hugging Face, ModelScope Text To Video Synthesis est un outil permettant de créer des vidéos à partir d’un input textuel grâce à un modèle de Deep Learning.

Cette application est conçue pour être facile d’usage, et ne requiert aucune connaissance ou expérience en Machine Learning. Elle est accessible directement depuis la plateforme Hugging Face Space, où les utilisateurs peuvent découvrir de nombreux outils, modèles, datasets et documents de ML.

Ce générateur utilise différents modèles et fichiers pour générer des vidéos de haute qualité. Il peut être particulièrement utile pour les individus ou entreprises cherchant à automatiser la création de vidéo pour le marketing ou la publicité.

Vous pouvez créer des vidéos de format court, du texte animé, ou différents autres types de contenus. Il s’agit toutefois d’une solution limitée, dont le principal point fort est l’intégration avec les autres applications Hugging Face Space !

New open source text to video AI model



576×320 model: https://t.co/fhN2cw2tOn

1024×576: https://t.co/OK7IutR1tF



zeroscope_v2_576w, A watermark-free Modelscope-based video model optimized for producing high-quality 16:9 compositions and a smooth video output. This model was… pic.twitter.com/2w6eYBtUUD — AK (@_akhaliq) June 24, 2023

Stable Video Diffusion

Lancé en novembre 2023, Stable Video Diffusion est un générateur de vidéos créé par Stability AI a qui l’ont doit déjà le générateur d’images Stable Diffusion.

Il permet de transformer n’importe quelle image en courte vidéo. Plutôt qu’un véritable outil, ce projet expérimental repose sur deux modèles IA utilisant une technique appelée image-to-video.

Le premier modèle dénommé SVP produit une synthèse image-to-video d’une longueur de 14 images, et le second SVD-XT génère 25 images.

Ils peuvent fonctionner à une vitesse variée allant de 3 à 30 images par seconde, et produisent des vidéos de 2 à 4 secondes au format MP4 d’une définition de 576×1024.

Today, we are releasing Stable Video Diffusion, our first foundation model for generative AI video based on the image model, @StableDiffusion. As part of this research preview, the code, weights, and research paper are now available.



Additionally, today you can sign up for our… pic.twitter.com/0MbV5DDPt2 — Stability AI (@StabilityAI) November 21, 2023

Les animations générées gardent une partie de l’image statique, et ajoutent des effets de panning,de zoom ou de mouvement.

Vous pouvez l’exécuter localement sur un ordinateur doté d’un GPU Nvidia. Comptez environ 30 minutes pour générer une vidéo de 14 images avec une carte RTX 3060.

Les services cloud comme Hugging Face ou Replicate permettent toutefois d’aller beaucoup plus rapidement. Stability insiste sur le fait qu’il s’agit d’un modèle de recherche qui n’en est encore qu’à ses débuts.

On ne sait pas exactement sur quelles vidéos l’IA a été entraînée, mais le document officiel précise que plus de 600 millions d’échantillons ont été agrégés sur le Large Video Dataset (LVD) constitué de 580 millions de clips annotés pour une durée totale de 212 ans.

Today, we are adding Stable Video Diffusion, our foundation model for generative video to the Stability AI Developer Platform API.



The model can generate 2 seconds of video, comprising of 25 generated frames and 24 frames of FILM interpolation, within an average time of 41… pic.twitter.com/CSUh3BoZ1a — Stability AI (@StabilityAI) December 20, 2023

Leonardo AI Motion

En janvier 2024, le générateur d’images Leonardo AI s’est enrichi d’un nouvel outil de génération de vidéo basé sur Stable Video Diffusion.

Cet outil dénommé Motion permet de transformer une image générée en petit clip vidéo. Et les résultats sont impressionnants.

Les vidéos durent entre trois et quatre secondes. En revanche, il n’est pas encore possible d’étendre leur durée comme avec Pika et Runway.

Utiliser Motion est très simple. Il suffit de cliquer sur un bouton, comme pour remixer ou upscaler les images.

Une option permet de contrôler la quantité de mouvement, mais c’est le seul contrôle proposé pour le moment. Toutefois, l’interprétation de l’image et la qualité de l’animation sont bluffantes.

Le modèle Stable Video Diffusion est ici combiné à la fonctionnalité Realtime Gen basée sur SDXL Turbo pour générer en même temps que vous tapez le prompt, afin de tester des idées sans avoir besoin d’attendre l’image complète.

Il est possible de rendre une vidéo privée ou de la rendre disponible sur un flux public pour que les autres utilisateurs puissent la trouver. Les vidéos sont au format MP4, et chaque génération coûte 25 crédits.

En décembre, la startup Leonardo avait levé 31 millions de dollars pour développer ses services. C’est ce qui lui a permis de s’aventurer dans le domaine de la génération de vidéos !

WALT

WALT is a new, groundbreaking Text-to-Video approach from Stanford & Google researchers with a transformer-based diffusion model for photorealistic video generation! 🌟



Link 👇 pic.twitter.com/ULy3aGuarh — René Schulte (@rschu) December 13, 2023

Développé par des chercheurs de l’Université de Stanford, WALT est un modèle IA capable de créer une vidéo photoréaliste à partir d’un prompt textuel ou d’une image.

Par rapport aux autres outils existants, l’une des prouesses de l’équipe est d’être parvenue à créer du mouvement 3D fluide et cohérent sur un objet.

Pour atteindre ce niveau de qualité, l’IA a été entraînée à la fois à partir de photos et de vidéos. Ceci a permis de donner au modèle une compréhension approfondie du mouvement dès le départ.

La qualité d’image est nettement inférieure à celle d’outils comme Runway ou Pika, mais il s’agit seulement d’un modèle de recherche.

Le modèle produit d’abord des clips 128×128, qui sont ensuite upsamplés pour atteindre une définition de 512×896 à 8 images par seconde. À titre comparatif, la version payante de Runway Gen-2 peut créer des clips jusqu’à 1536×896.

L’objectif de ces chercheurs est de créer un framework unifié de génération de vidéo et d’images afin de refermer le fossé qui sépare ces deux technologies en termes de progrès effectués.

En guise de démonstration, Stanford a partagé des clips de dragons crachant du feu, d’astéroïdes frappant la Terre et de chevaux courant sur une plage.

Google VideoPoet

Développé par Google, VideoPoet est un outil de génération de vidéo basé sur MAGVIT 2 : un puissant encodeur transformant les prompts en vidéos.

Son architecture de transformer « decoder-only » offre des capacités zero-shot et permet de créer du contenu pour lequel il n’a pas été entraîné spécifiquement.

Il permet donc de créer des vidéos de durée variable, avec beaucoup de mouvement fluide et captivant. Les contenus présentent une haute cohérence.

Son modèle de langage autorégressif entraîné sur de la vidéo, du texte, de l’image et de l’audio peut s’adapter à toutes les tâches de génération de contenu.

Il suit un processus d’entraînement en deux étapes, à la manière des autres LLM : un pré-entraînement, et une adaptation à des tâches spécifiques. C’est ce qui le rend adaptable et efficace.

En tant qu’IA multimodale, VideoPoet accepte divers inputs tels que texte, des images, des vidéos ou de l’audio. Il est possible d’utiliser tous ces types de contenus en guise de prompt, et de générer un nouveau contenu. C’est donc un générateur « any-to-any ».

On retrouve également des fonctionnalités de stylisation, d’inpainting ou d’outpainting. Les possibilités de personnalisation sont nombreuses, avec notamment l’option de contrôler le mouvement de la caméra.

Malheureusement, à l’heure actuelle, il n’est pas encore possible pour le grand public d’utiliser Google VideoPoet. Vous pouvez le découvrir sur le site de démonstration en suivant ce lien, ou vous plonger dans le document publié par les chercheurs !

Google just launched VideoPoet!



And what it can do is impressive:



– Inpainting

– Video Editing

– Text-to-Video

– Image-to-Video



Here are 10 awesome examples: pic.twitter.com/nzDOnkfUV4 — There's An AI For That (@theresanaiforit) January 25, 2024

Meta Make-a-Video

Dévoilé en septembre 2022 par Meta, Make-A-Video est un générateur de vidéo propulsé par l’IA. Il permet de créer du contenu vidéo à partir de prompts textuels ou d’images.

Cet outil peut aussi produire des variantes de vidéos existantes. Toutefois, il n’est pas encore disponible pour le grand public.

Plusieurs démonstrations ont été publiées par la firme en guise d’exemples. On peut notamment découvrir un jeune couple marchant sous la pluie, et un ours en peluche peignant un portrait.

La page de présentation met aussi en lumière la capacité de Make-A-Video à animer une image source statique. Par exemple, une tortue de mer sur une photo semble nage après avoir été traitée par l’IA.

La technologie derrière Make-A-Video est basée sur les outils existants dans le domaine du text-to-image tels que DALL-E. En juillet 2022, Meta avait annoncé son propre générateur d’images dénommé Make-A-Scene.

Au lieu d’entraîner son modèle sur des données de vidéo étiquetées, avec des légendes décrivant les actions présentées, la firme a pris les données de synthèse d’image et a appliqué des données d’entraînement vidéo pour que le modèle comprenne où un prompt de texte ou d’image peut exister dans le temps et l’espace.

Ainsi, l’IA peut maintenant prédire ce qui survient après l’image et afficher la scène en mouvement pendant une courte période. Les couches spatiales ont donc été étendues pour inclure les informations temporelles.

De nouveaux modules d’attention ont appris les dynamiques du monde temporel à partir d’une collection de vidéos. C’est ce qui a permis de créer cet outil dès 2022.

Le chercheur Simon Willison a néanmoins découvert que le dataset utilisé pour entraîner l’IA contient 10 millions de vidéos récupérés sur Shutterstock sans permission. De son côté, Andy Baio a remarqué 3,3 millions de vidéos additionnels provenant de YouTube…

Toutefois, pour l’heure, Meta n’a pas encore annoncé quand cette IA serait disponible pour le public ou qui y aurait accès. Un formulaire est disponible pour s’inscrire à la liste d’attente.

Cependant, la firme de Mark Zuckerberg anticipe déjà les risques liés à un tel logiciel. Sur la page officielle, elle explique qu’une watermark va permettre de s’assurer que les spectateurs sachent que la vidéo est générée par IA…

Le futur : ChatGPT et MidJourney pourront bientôt créer des vidéos

Après la génération d’images, MidJourney a annoncé le lancement prochain d’un générateur de vidéos. Selon le CEO David Holz, l’entraînement de ce nouveau modèle a commencé en janvier 2024.

L’outil sera lancé dans quelques mois, et pourrait bien s’imposer comme la nouvelle référence du marché s’il est aussi performant que pour les images.

En parallèle, lors d’une interview avec Bill Gates, le CEO d’OpenAI, Sam Altman, a lui aussi annoncé que le futur GPT-5 serait capable de générer des vidéos.

Cela confirme que la création de vidéos est la prochaine étape de l’IA générative, et que les meilleurs outils restent à venir avec l’irruption des plus grands géants de l’industrie sur ce secteur !