stable cascade ia

Stable Diffusion revient en force avec une toute nouvelle IA : Cascade

Stability AI dévoile Stable Cascade : un tout nouveau modèle de générateur d'images IA Text-to-Images plus rapide, plus puissant et moins coûteux que ! Cette prouesse technologique est rendue possible par une nouvelle approche très ingénieuse…

En août 2022, Stability AI lançait Stable Diffusion : un puissant générateur d'images IA open source, devenu l'un des leaders du marché et la fondation de nombreux autres outils similaires.

Pour cause, en tant que modèle open source, Stable Diffusion peut être exploité et modifié à volonté pour créer des générateurs d'images spécialisés ou autres variantes.

Plus récemment, le modèle SDXL 1.0 a été lancé en juillet 2023, et la mise à jour SDXL Turbo de novembre 2023 a permis une nette accélération.

Toutefois, l'eau a coulé sous les ponts depuis lors et « SD » peine à rivaliser avec les nouveaux champions tels que MidJourney V6, 3, ImageFX ou encore le tout nouveau OpenAI Sora qui génère aussi bien des vidéos que des photos.

Néanmoins, c'est mal connaître Stability AI que de penser qu'elle allait s'avouer vaincue. Le 15 février 2024, la startup a annoncé son tout nouveau modèle : Stable Cascade.

Stable Cascade : plus puissant, plus rapide et moins coûteux

Plus rapide, plus puissant, Cascade peut générer des photos et produire des variations ! Il est également capable d'augmenter la définition d'une image existante.

On retrouve également des fonctionnalités d'inpainting et d'outpainting, permettant de compléter uniquement une partie spécifique d'une image.

Par ailleurs, la fonctionnalité Canny Edge permet de créer une nouvelle image en utilisant les bordures d'une photo déjà existante.

Une IA basée sur un processus en 3 étapes

Contrairement aux différents modèles Stable Diffusion, Stable Cascade n'est pas un Large Modèle de Langage (LLM). Il s'agit en fait de trois différents modèles reposant sur l'architecture Würstchen.

Cette dernière combine les performances compétitives avec une efficacité sans précédent en termes de coût pour les modèles de diffusion text-to-image à grande échelle.

Ainsi, Cascade adopte une approche en trois étapes. La première étape, stage C, compresse les prompts textuels en petits morceaux de code correspondants à de minuscules images latentes de 24×24 pixels.

Ils sont ensuite transmis aux étapes A et B pour décoder la requête et la transformer en images haute-définition.

Décomposer ainsi les requêtes en plus petits morceaux permet de la compresser pour nécessiter moins de mémoire et d'heures d'entraînement sur les GPU, tout en les exécutant plus vite.

Bien qu'il ait 1,4 milliard de paramètres de plus que SDXL, Stable Cascade offre des temps d'inférence plus rapides.

Il ne faut ainsi que 10 secondes pour créer une image, contre 22 secondes avec le modèle SDXL. Et ce, tout en offrant une meilleure qualité esthétique et un alignement accru avec le prompt !

Par ailleurs, le découplage entre la génération conditionnelle de l'étape C et l'espace de pixel à haute définition des étapes A et B permet un entraînement ou un peaufinage additionnel tels que ControlNets ou LoRA lors de l'étape C.

Comment tester Stable Cascade dès à présent ?

Avec Stable Diffusion, Stability AI a popularisé la méthode de diffusion stable pour la génération d'images IA. Il s'est placé en pionnier de l'IA Text-to-Image, malgré plusieurs controverses.

La startup a notamment été accusée d'avoir entraîné son IA sur des données protégées par droit d'auteur sans permission, et son procès face à Getty Images aura lieu en décembre 2024 au Royaume-Uni.

Depuis le mois de décembre 2023, elle propose désormais des licences commerciales via un système d'abonnement. En rupture avec son esprit initial open source, il s'agit selon l'entreprise d'une nécessité pour financer ses travaux de recherche.

Le nouveau modèle Cascade est d'ores et déjà disponible sur GitHub. Toutefois, il est pour le moment réservé aux chercheurs et n'est pas exploitable pour un usage commercial.

Comme pour Stable DIffusion, les utilisateurs peuvent télécharger le logiciel et l'exécuter hors-ligne sur leur propre ordinateur. La firme ajoute qu'il est très facile à entraîner et affiner sur du hardware grand public !

Le code d'entraînement et d'inférence peut également être trouvé sur la page GitHub, pour permettre une meilleure customisation du modèle et de ses résultats.

Si vous souhaitez tester l'outil dès à présent, vous pouvez utiliser la démo non officielle sur Hugging Face en cliquant sur ce lien !

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *