Make-A-Video : l’IA de Meta transforme vos textes en vidéos ! Comment l’utiliser ?

Bastien L. 30 septembre 2022 5 minutes de lecture Intelligence artificielle

Make-A-Video est un nouveau modèle d'intelligence artificielle créé par les chercheurs de Meta. Cette IA est capable de créer des vidéos de 5 secondes, à partir d'une simple description textuelle écrite par l'utilisateur. Découvrez tout ce que vous devez sur cet outil révolutionnaire, et comment l'utiliser.

Tout au long de l'année 2022, les intelligences artificielles « Text-to-Art » ont suscité un vif engouement. En permettant aux internautes de créer des images en tapant du texte, ces IA sont devenues un phénomène viral sur les réseaux sociaux.

Au-delà du divertissement, les outils tels que DALL-E, MidJourney ou Stable Diffusion sont utilisés par des artistes, des designers et même des architectes pour accroître leur productivité. Pour tout savoir sur les générateurs ou synthétiseurs d'images IA « Text-to-Art », consultez notre dossier complet à cette adresse.

À présent, Meta anciennement Facebook vient de dévoiler la suite logique pour le mouvement Text-to-Art : une intelligence artificielle capable de générer de courtes vidéos à partir de textes entrés par l'utilisateur.

Il suffit d'écrire une simple description textuelle, par exemple « un chien portant un costume de superhéros avec une cape rouge volant dans le ciel », et l'IA crée une vidéo de cinq secondes illustrant les mots.

Pour l'heure, le résultat correspond à la description, mais la qualité d'image n'est pas encore au rendez-vous. Néanmoins, ce nouveau système offre un aperçu du futur de l'intelligence artificielle générative. C'est la prochaine étape d'une technologie dont rien ni personne n'arrêtera l'évolution…

Une IA entraînée sur trois datasets

Le processus d'entraînement du système Make-a-Video est plus compliqué que celui des IA Text-to-Image, puisqu'il n'existe pas de larges jeux de données de vidéos de haute qualité couplées à du texte. Pour contourner cet obstacle, Meta a combiné les données de trois data sets d'images et de vidéos open source afin d'entraîner son modèle.

L'IA a pu apprendre le nom et l'apparence des objets grâce aux jeux de données d'images étiquetées, et la base de données de vidéo lui a permis de comprendre la façon dont ces objets sont censés bouger. La combinaison entre ces différentes sources a permis à Make-a-Video d'apprendre à générer des vidéos à partir de texte.

Comment ça fonctionne ?

L'IA Make-a-Video fonctionne de la même façon que les modèles Text-to-Image comme Stable Diffusion. Comme l'écrivent les chercheurs de Meta, « un modèle qui a vu uniquement du texte décrivant des images est étonnamment efficace pour générer de courtes vidéos ».

Cet outil utilise la technique de diffusion pour créer des images statiques et réalistes, mais a également appris à quoi ressemblent les séquences d'images dans une vidéo grâce à l'entraînement sur des datasets de contenu vidéo.

Sans avoir eu besoin d'entraînement sur la façon dont ces notions doivent être combinées, l'IA est parvenue à associer ces deux techniques pour générer des vidéos.

Outre la génération de vidéos à partir de textes, cette IA permet de transformer des images fixes en vidéos ou de créer des variantes et des extensions de vidéos existantes.

Les interactions entre objets laissent à désirer

Selon Tanmay Gupta, chercheur en vision par ordinateur au Allen Institute for Artificial Intelligence, le modèle présenté par Meta est très prometteur. Les vidéos partagées démontrent que l'IA est capable de capturer les formes 3D pendant que la caméra tourne.

Ce système a aussi des notions de profondeur et d'éclairage, et les mouvements sont convaincants. Néanmoins, cet expert estime qu'il y a encore « beaucoup de marge de progression, en particulier si ces outils doivent être utilisés pour le montage vidéo et la création de contenu professionnelle ».

L'un des principaux points faibles de Make-A-Video reste pour l'instant la modélisation des interactions complexes entre les objets. Par exemple, sur une vidéo générée à partir du texte « le pinceau d'un artiste peignant sur une toile », le contact du pinceau avec la toile n'est pas réaliste.

Les mouvements peuvent également sembler étranges, comme dans un film « stop-motion » animé image par image. La corruption et les artefacts donnent à chaque vidéo une apparence surréaliste, comme si les objets fuyaient. Les personnes semblent également se mélanger, car l'IA ne comprend pas encore les bordures des objets ou les effets des contacts.

Quoi qu'il en soit, il ne s'agit que d'un début. Comme les autres IA génératives, Make-a-Video va s'améliorer massivement au fil du temps…

Une technologie réservée aux GAFAM ?

Plus encore que les IA Text-to-Image, cet outil d'un genre nouveau soulève d'importantes questions éthiques. En effet, ce modèle d'intelligence artificielle requiert une puissance de calcul titanesque.

Les IA Text-to-Image nécessitaient déjà des millions d'images pour leur entraînement, mais une seule vidéo requiert des centaines d'images. Par conséquent, seules les plus grandes entreprises de technologie telles que les GAFAM pourront construire de tels systèmes à court terme…

Une technologie puissante, mais dangereuse

Meta promet que cette technologie peut « ouvrir de nouvelles opportunités pour les créateurs et artistes ». Toutefois, cette technologie pourrait aussi être exploitée pour créer et propager de fausses informations et des DeepFakes. Dans un futur proche, différentier le vrai contenu du faux sur internet pourrait devenir extrêmement difficile…

Selon Henry Ajder, expert en média synthétique, ce nouveau modèle de Meta augmente le potentiel des IA génératives sur le plan technique et créatif, mais accroît aussi les risques.

À l'heure actuelle, « créer du contenu factuellement inexact que les gens pourraient croire nécessite un effort ». En revanche, « dans le futur, il pourrait être possible de créer du contenu trompeur en tapant sur un clavier ».

Afin d'éviter les risques de biais et de discrimination, les chercheurs de Meta ont filtré les mots et images offensants dans les jeux de données d'entraînement. Toutefois, il est presque impossible de filtrer entièrement un dataset de cette envergure…

C'est la raison pour laquelle le modèle n'est pas encore à disposition du public. Selon un porte-parole de Meta, « nous continuerons d'explorer des façons de réduire les risques potentiels dans le cadre de cette recherche ».

Comment utiliser Make-a-Video ?

Pour l'heure, Make-a-Video n'est pas encore accessible au grand public. Afin de limiter les risques de dérives et d'abus, Meta préfère réserver son outil aux chercheurs.

Cette stratégie avait aussi été adoptée par OpenAI pour son générateur d'images DALL-E, mais cette IA vient d'être ouverte à tous. On peut donc s'attendre à ce que Meta ouvre son modèle d'ici quelques mois.

En attendant, vous pouvez consulter le papier publié par les chercheurs à cette adresse pour tout savoir sur Make-A-Video et visionner les différentes vidéos de démonstration. Un bouton permet aussi de s'inscrire pour accéder aux futures versions de l'outil.

https://www.youtube.com/watch?v=MWwESVyHWto

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

Make-A-Video : l’IA de Meta transforme vos textes en vidéos ! Comment l’utiliser ?

Une IA entraînée sur trois datasets

Comment ça fonctionne ?

Les interactions entre objets laissent à désirer

Une technologie réservée aux GAFAM ?

Une technologie puissante, mais dangereuse

Comment utiliser Make-a-Video ?

Sur le même sujet

Newsletter

Laisser un commentaire

Make-A-Video : l’IA de Meta transforme vos textes en vidéos ! Comment l’utiliser ?

Une IA entraînée sur trois datasets

Comment ça fonctionne ?

Les interactions entre objets laissent à désirer

Une technologie réservée aux GAFAM ?

Une technologie puissante, mais dangereuse

Comment utiliser Make-a-Video ?

Sur le même sujet

Mistral Large 2 : la réponse française, moins de 24h après Meta Llama 3.1 !

L’IA de vidéos Kling, ultra-populaire en Chine, enfin disponible en France !

JO Paris 2024 : l’IA prédit les médailles d’or et les records battus

Newsletter

Laisser un commentaire