Ces derniers mois, Meta s’est de plus en plus intéressé à l’IA générative. De nombreux modèles ont alors été publiés dans le but de concurrencer MidJourney et Dall-E.
Récemment, Meta a lancé une intelligence génératrice d’images baptisée CM3leon. D’après la société, ce nouveau générateur alimenté par IA serait en mesure de convertir du texte en image et inversement. C’est une nouvelle qui a vite suscité l’intérêt des utilisateurs. En particulier ceux qui se sont habitués à recourir à DALL-E 2 d’OpenAI.
Comment Meta envisage-t-il de faire la différence avec le lancement de CM3leon ?
Le lancement de CM3leon par Meta joue un rôle important au niveau de la multiplication des IA génératives sur le marché actuel. Il s’agit également d’un nouveau système qui suscite aussi bien l’intérêt des grandes entreprises que celui des start-ups. Et étant donné que les anciens modèles d’IA générative n’exploitent pas encore leur plein potentiel, surtout avec les problèmes de précision et de fiabilité de GPT-4 en ce moment, Meta a su développer une approche différente de celle adoptée par OpenAI.
Ce qui différencie CM3leon de Meta des autres générateurs d’images, notamment DALL-E 2 d’OpenAI, c’est qu’il repose sur un modèle de transformateur appelé « Attention ». C’est grâce à cette approche que CM3leon peut traiter les images avec une vélocité accrue, entraînant par la suite une réduction du coût de traitement.
Le premier modèle capable d’effectuer une double tâches
Le plus grand avantage du modèle CM3leon de Meta, c’est sa capacité à générer du texte et des images en même temps. Ce qui n’est pas possible avec les anciens modèles d’IA génératives telles que DALL-E 2 ou MidJourney, deux outils qui se limitent uniquement à la génération d’images. Chaque image peut en effet s’accompagner d’une légende et CM3leon peut bel et bien générer une séquence de textes. À ce stade, il se place en tant qu’outil généré par IA capable d’effectuer une double tâches.
Meta CM3leon vs DALL-E 2
Avec une configuration de 7 milliards de paramètres, Meta CM3leon surpasse de loin DALL-E 2 qui n’en dispose que 3,5 milliards. Quant à son apprentissage, il a été formé sur plusieurs millions d’images sous licence de Shutterstock. En d’autres termes, il a pu bénéficier d’une solide base d’apprentissage comparé à DALL-E et à DALL-E 2.
Mais les atouts du CM3leon de Meta ne se limitent pas à sa capacité de générer à la fois des textes et des images. La longueur des légendes peut varier en fonction des questions et des réponses à chaque question, c’est-à-dire à chaque prompt. Les exemples fournis par Meta montrent que CM3leon est capable de décrire une image en détail, une capacité qui surpasse même les modèles spécialisés dans le sous-titrage d’images.
En somme, l’introduction de CM3leon par Meta représente une avancée significative dans le domaine des générateurs d’images alimentés par l’IA. Grâce à son apprentissage et ses 7 milliards de paramètres, ainsi que sa double capacité à générer du texte et des images, il va vite détrôner MidJourney et DALL-E 2.
- Partager l'article :
midjourney peut écrire des légendes pour des images existantes aussi