Genmo vous présente Mochi 1, un modèle open source de création vidéo. Il promet une qualité réaliste et est proposé à un prix défiant toute concurrence. Il est ainsi fort probable que cet outil bouscule les géants actuels comme Runway et Pika. Sa version actuelle disponible est en 480p, mais la société promet une édition haute définition HD d’ici la fin de l’année.
Genmo frappe fort en dévoilant Mochi 1, un modèle de génération vidéo open source, capable de créer des vidéos réalistes. La société revendique des performances comparables, voire supérieures, à celles des concurrents propriétaires, comme Runway, Luma AI, ou encore Minimax.
Contrairement à ces derniers, Mochi 1 est distribué sous licence Apache 2.0. Il vous permet ainsi d’accéder gratuitement aux capacités de génération vidéo de haute qualité.
Genmo Mochi 1 : performant, gratuit et open source
Les premiers tests de Mochi 1 montrent un rendu réaliste, surtout au niveau des mouvements des personnages humains. Et selon Paras Jain, PDG de Genmo, c’est justement cette qualité de mouvement qui est la priorité absolue. « La seule vidéo qui n’intéresse personne est celle qui ne bouge pas »
Il se distingue aussi par sa capacité à suivre des instructions détaillées, offrant un contrôle précis sur les personnages, les paramètres et les actions dans les vidéos créées.
Visiblement, Jain se réjouit de cette avancée. « Nous n’en sommes qu’au début de la vidéo générative. Le véritable défi est de créer des vidéos longues, fluides et de haute qualité, et Mochi 1 est un pas décisif dans cette direction ».
Le PDG souhaite démocratiser l’accès à la création vidéo, raison pour laquelle il a ouvert cette technologie au grand public. « L’IA vidéo est la prochaine grande avancée, et il est essentiel qu’elle soit entre les mains de tous ».
Pour ce faire, Genmo a levé 28,4 millions de dollars en série A. NEA figure comme principal investisseur, suivi de divers fonds et entrepreneurs du secteur technologique.
Vous souhaitez exploiter Mochi 1 ? Vous pouvez télécharger gratuitement le code complet et les poids sur Hugging Face. Il faut juste que votre machine dispose d’au moins quatre GPU Nvidia H100.
Mais toute prouesse technologique a une faille…
Mochi 1 repose sur une architecture novatrice, AsymDiT, intégrant 10 milliards de paramètres. C’est le plus grand modèle open source dédié à la génération vidéo. Le but de la société n’est autre que d’inviter les talents du monde entier à tester, améliorer et affiner l’outil.
En mettant l’accent sur l’efficacité, Genmo utilise un VAE (Variational Autoencoder), capable de compresser les données vidéo pour un gain de mémoire conséquent. Mais malgré ses avancées impressionnantes, Mochi 1 reste limité.
La version actuelle ne produit encore que des vidéos en 480p. De plus, bien qu’il excelle dans le photoréalisme, l’outil peine avec les contenus animés.
L’arrivée imminente de la version HD, prévue avant la fin de cette année, devrait néanmoins résoudre certaines de ces lacunes. Ce modèle prendra en charge une résolution de 720p et une meilleure précision dans les mouvements.
Personnellement, je suis curieuse de savoir comment sera le futur de Mochi 1. La qualité des vidéos générées, la gratuité et l’accessibilité via l’open source séduiront sûrement un large public.
Toutefois, je me demande également, comme beaucoup d’autres, quelles données utilisent Genmo pour entraîner cette IA. D’ailleurs, son souhait de ne pas divulguer leur source d’information, pour des raisons, soit disant, de “confidentialité concurrentielle”, me met encore plus la puce à l’oreille.
Vous, qu’est-ce que vous en pensez ? N’hésitez pas à nous partager votre avis en commentaire.
- Partager l'article :