Stable Diffusion revient en force avec une toute nouvelle IA : Cascade

Bastien L. 2 mars 2024 3 minutes de lecture Dossiers, IA générative, Intelligence artificielle

Stability AI dévoile Stable Cascade : un tout nouveau modèle de générateur d'images IA Text-to-Images plus rapide, plus puissant et moins coûteux que Stable Diffusion ! Cette prouesse technologique est rendue possible par une nouvelle approche très ingénieuse…

En août 2022, Stability AI lançait Stable Diffusion : un puissant générateur d'images IA open source, devenu l'un des leaders du marché et la fondation de nombreux autres outils similaires.

Pour cause, en tant que modèle open source, Stable Diffusion peut être exploité et modifié à volonté pour créer des générateurs d'images spécialisés ou autres variantes.

Plus récemment, le modèle SDXL 1.0 a été lancé en juillet 2023, et la mise à jour SDXL Turbo de novembre 2023 a permis une nette accélération.

Toutefois, l'eau a coulé sous les ponts depuis lors et « SD » peine à rivaliser avec les nouveaux champions tels que MidJourney V6, DALL-E 3, Google ImageFX ou encore le tout nouveau OpenAI Sora qui génère aussi bien des vidéos que des photos.

Néanmoins, c'est mal connaître Stability AI que de penser qu'elle allait s'avouer vaincue. Le 15 février 2024, la startup a annoncé son tout nouveau modèle : Stable Cascade.

Stable Cascade : plus puissant, plus rapide et moins coûteux

Stable Cascade is now available in research preview for non-commercial use. This innovative text to image model introduces a three-stage approach, featuring enhancements for fine-tuning and training efficiency with a focus on further eliminating hardware barriers.

Learn more… pic.twitter.com/4sLHoQJtje
— Stability AI (@StabilityAI) February 13, 2024

Plus rapide, plus puissant, Cascade peut générer des photos et produire des variations ! Il est également capable d'augmenter la définition d'une image existante.

On retrouve également des fonctionnalités d'inpainting et d'outpainting, permettant de compléter uniquement une partie spécifique d'une image.

Par ailleurs, la fonctionnalité Canny Edge permet de créer une nouvelle image en utilisant les bordures d'une photo déjà existante.

Une IA basée sur un processus en 3 étapes

Contrairement aux différents modèles Stable Diffusion, Stable Cascade n'est pas un Large Modèle de Langage (LLM). Il s'agit en fait de trois différents modèles reposant sur l'architecture Würstchen.

Cette dernière combine les performances compétitives avec une efficacité sans précédent en termes de coût pour les modèles de diffusion text-to-image à grande échelle.

Ainsi, Cascade adopte une approche en trois étapes. La première étape, stage C, compresse les prompts textuels en petits morceaux de code correspondants à de minuscules images latentes de 24×24 pixels.

Ils sont ensuite transmis aux étapes A et B pour décoder la requête et la transformer en images haute-définition.

Another crazy leap in AI image generation just happened.

This is Stable Cascade, and everything you see is in real time, running only on my PC. pic.twitter.com/Pd7OQsql18
— Ethan Mollick (@emollick) February 15, 2024

Décomposer ainsi les requêtes en plus petits morceaux permet de la compresser pour nécessiter moins de mémoire et d'heures d'entraînement sur les GPU, tout en les exécutant plus vite.

Bien qu'il ait 1,4 milliard de paramètres de plus que SDXL, Stable Cascade offre des temps d'inférence plus rapides.

Il ne faut ainsi que 10 secondes pour créer une image, contre 22 secondes avec le modèle SDXL. Et ce, tout en offrant une meilleure qualité esthétique et un alignement accru avec le prompt !

Par ailleurs, le découplage entre la génération conditionnelle de l'étape C et l'espace de pixel à haute définition des étapes A et B permet un entraînement ou un peaufinage additionnel tels que ControlNets ou LoRA lors de l'étape C.

The #stablecascade output will be even better with DPO (note three stage..) & of course can turbofy it, quantise it etc

This is a research preview benchmark/vanilla model but produces great images & solid text out of the box that you can improve with ComfyUI flows https://t.co/4c1a89SEzI
— Emad acc/acc (@EMostaque) February 13, 2024

Comment tester Stable Cascade dès à présent ?

Avec Stable Diffusion, Stability AI a popularisé la méthode de diffusion stable pour la génération d'images IA. Il s'est placé en pionnier de l'IA Text-to-Image, malgré plusieurs controverses.

La startup a notamment été accusée d'avoir entraîné son IA sur des données protégées par droit d'auteur sans permission, et son procès face à Getty Images aura lieu en décembre 2024 au Royaume-Uni.

Depuis le mois de décembre 2023, elle propose désormais des licences commerciales via un système d'abonnement. En rupture avec son esprit initial open source, il s'agit selon l'entreprise d'une nécessité pour financer ses travaux de recherche.

Le nouveau modèle Cascade est d'ores et déjà disponible sur GitHub. Toutefois, il est pour le moment réservé aux chercheurs et n'est pas exploitable pour un usage commercial.

Comme pour Stable DIffusion, les utilisateurs peuvent télécharger le logiciel et l'exécuter hors-ligne sur leur propre ordinateur. La firme ajoute qu'il est très facile à entraîner et affiner sur du hardware grand public !

Le code d'entraînement et d'inférence peut également être trouvé sur la page GitHub, pour permettre une meilleure customisation du modèle et de ses résultats.

Si vous souhaitez tester l'outil dès à présent, vous pouvez utiliser la démo non officielle sur Hugging Face en cliquant sur ce lien !

Stability releases Stable Cascade

demo: https://t.co/eychPLlXNS

github: https://t.co/lvzwadisIY

a new text to image model building upon the Würstchen architecture pic.twitter.com/ZFYvrOr1bN
— AK (@_akhaliq) February 13, 2024

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

Stable Diffusion

Stable Diffusion revient en force avec une toute nouvelle IA : Cascade

Stable Cascade : plus puissant, plus rapide et moins coûteux

Une IA basée sur un processus en 3 étapes

Comment tester Stable Cascade dès à présent ?

Sur le même sujet

Newsletter

Laisser un commentaire

Stable Diffusion revient en force avec une toute nouvelle IA : Cascade

Stable Cascade : plus puissant, plus rapide et moins coûteux

Une IA basée sur un processus en 3 étapes

Comment tester Stable Cascade dès à présent ?

Sur le même sujet

OpenAI dévoile son moteur de recherche IA, c’est un fiasco dès le début

Création de robots vivants : les scientifiques tirent l’alarme sur ce danger

Mistral Large 2 : la réponse française, moins de 24h après Meta Llama 3.1 !

Newsletter

Laisser un commentaire