DALL-E 2 est l’une des meilleures IA de génération d’image « Text-to-Art », permettant de créer des images artistiques à partir d’un simple texte. Découvrez comment vous inscrire et comment l’utiliser à travers notre guide complet !
Lancé en version beta en avril 2022, DALL-E 2 a rapidement créé le buzz sur le web et les réseaux. Cet outil s’est imposé comme l’un des générateurs d’images IA les plus avancés, en particulier pour la création d’images photoréalistes.
Vous avez probablement déjà vu des exemples de créations DALL-E 2 sur la toile, facilement reconnaissables par les carrés de couleur servant de watermark en bas à droite de l’écran. Les images générées par cet outil sont impressionnantes.
L’accès à DALL-E 2 était réservé à une poignée d’élus. Seuls quelques privilégiés triés sur le volet pouvaient mener des expériences avec l’IA de création d’images d’OpenAI.
D’autres outils similaires comme Stable Diffusion et MidJourney étaient accessibles à tous, mais DALL-E 2 était plus restreint. Les personnes désirant l’utiliser devaient s’inscrire à une liste d’attente.
Ce n’est désormais plus le cas. Depuis le 28 septembre 2022, OpenAI a annoncé l’ouverture complète de DALL-E 2 et la suppression de la liste d’attente. N’importe qui peut désormais laisser libre cours à son imagination en créant des images à l’aide de l’IA.
Qu’est-ce que DALL-E 2 ?
DALL-E 2 est une plateforme de génération d’image par intelligence artificielle. Développé par l’entreprise OpenAI, cet outil permet aux utilisateurs de générer des images, juste en entrant un texte.
L’utilisateur décrit le sujet et le style de l’image qu’il veut créer, et DALL-E 2 se charge de la générer. Pour être capable de comprendre les mots de l’utilisateur et de les illustrer, cette IA a été entraînée sur une base de données de plus de 650 millions d’images et de légendes existantes grâce au Machine Learning.
En parallèle, DALL-E peut aussi être utilisé pour éditer une image existante ou créer des variantes. Une fonctionnalité récemment ajoutée permet également d’étendre une image par-delà son cadre existant.
Le nom DALL-E est un mot-valise entre l’artiste Salvador Dali et le film d’animation WALL-E par Pixar. Cet outil repose sur l’IA GPT-3 d’OpenAI, capable de comprendre et de traiter le langage naturel humain afin de le convertir en images.
À quoi sert DALL-E 2 ?
DALL-E 2 permet de créer une multitude d’images dans des styles très variés. Cette IA peut même reproduire le style d’artistes célèbres. En Allemagne, un institut d’art maintient une exposition d’art évolutive en utilisant DALL-E 2 pour générer des œuvres basées sur les sujets tendance sur Twitter.
Outre la dimension artistique, cet outil peut être utilisé pour le design, l’architecture ou même le marketing. Plusieurs marques, dont Heinz, l’ont utilisé pour créer des publicités expérimentales. En outre, DALL-E 2 pourrait être utile pour accélérer la création d’arrière-plans de jeux vidéo ou de films.
En général, cette intelligence artificielle « Text-to-Art » permet de réaliser des expériences artistiques, de générer et de tester de nouvelles idées.
Selon OpenAI, plus de 1,5 million de personnes l’utilisent pour créer plus de 2 millions d’images par jour. Ces utilisateurs vont « des artistes aux directeurs de la création en passant par les écrivains et les architectes ». La firme ajoute qu’environ 100 000 d’entre eux partagent leurs créations et leurs commentaires sur le serveur Discord officiel.
DALL-E 2 : comment fonctionne t-il ?
Pour comprendre le fonctionnement du générateur d’images d’IA, il faut se familiariser avec les concepts suivants :
CLIP : signifie Contrastive Language-Image Pre-training (pré-entraînement contrastif langage-image). Il s’agit peut-être de l’élément le plus important de l’architecture de DALL-E 2. L’approche repose sur l’idée qu’il est possible d’utiliser le langage naturel pour enseigner aux ordinateurs le rapport entre différentes images.
CLIP se compose de deux réseaux neuronaux :
- un codeur de texte
- et un codeur d’image.
Tous deux sont entraînés sur des collections vastes et diverses de paires image-texte. Le modèle analyse ces paires d’images et de légendes pour créer des représentations vectorielles appelées « text/image embeddings« . En d’autres termes, CLIP sert de pont entre le texte (entrée) et l’image (sortie).
Modèle antérieur : il prend un encastrement de texte légende/CLIP et s’en inspire pour générer des encastrements d’images CLIP.
Modèle de diffusion du décodeur (unCLIP) : l’inverse du modèle CLIP original génère des images en utilisant les incrustations d’images CLIP.
DALL-E 2 crée un résultat en combinant les modèles antérieurs et unCLIP. L’image ci-dessous décrit grossièrement le processus sous-jacent.
Comment s’inscrire sur DALL-E 2 ?
Depuis septembre 2022, l’accès est désormais ouvert et n’importe qui peut s’inscrire depuis le site officiel. Voici comment s’y prendre/
- Créer un compte sur le site web d’OpenAI. Pour ce faire, vous devrez entrer votre adresse email et un code de sécurité, et créer un mot de passe à huit chiffres.
- Ensuite, vous recevrez un email contenant un lien, sur lequel vous devez cliquer pour vérifier votre compte. Vous recevrez aussi un code par SMS pour confirmer votre identité. En guise d’alternative, vous pouvez aussi créer un compte en utilisant votre compte Google ou Microsoft.
- Cliquez pour finir sur le bouton « Continuer » pour accepter les conditions d’utilisation.
Certains internautes rencontrent toutefois des difficultés. Sur Twitter et Instagram, plusieurs personnes se plaignent que DALL-E 2 est inaccessible dans leur pays ou qu’ils reçoivent une erreur en tentant de s’inscrire. Il n’y a toujours pas d’API pour DALL-E 2, mais OpenAI y travaille.
Comment créer une image avec DALL-E 2 ?
Une fois l’inscription complétée, vous pouvez commencer à écrire votre premier texte descriptif ou « prompt » en anglais. Il suffit de décrire le sujet de l’image et le style désiré, et l’IA se charge de la créer.
Après avoir créé votre compte, vous verrez à l’écran une grande boîte de texte. C’est ici que vous pouvez écrire une description de l’image que vous souhaitez créer, avec un maximum de 400 caractères.
Essayez d’être le plus détaillé possible, et cliquez sur « générer ». Dès lors, DALL-E 2 crée quatre images basées sur votre texte. En cas de message d’erreur, vous pouvez réessayer.
N’hésitez pas à éditer votre « prompt » autant de fois que nécessaire pour améliorer le résultat. Toutefois, gardez en tête que chaque nouvelle génération d’image vous coûtera des crédits.
Si l’une des quatre images générées vous convient, cliquez dessus. Vous pouvez ensuite la télécharger en cliquant sur la flèche située en haut à droite de l’image. Il est également possible d’éditer l’image en cliquant sur le bouton « edit », avec des outils tels qu’une gomme ou l’importation d’images à ajouter. En outre, vous pouvez aussi créer des « variations » alternatives de l’image.
Comment modifier une image existante avec DALL-E 2 ?
Une autre manière d’utiliser DALL-E 2 est de télécharger une image depuis votre ordinateur ou votre smartphone, afin de la modifier. Sous la boîte de texte, vous trouverez un lien permettant de la charger.
L’image sera automatiquement rognée en carré. Après l’avoir téléchargée, vous pouvez laisser DALL-E 2 créer ses propres variations ou éditer l’image à votre guise.
DALL-E 2 Outpainting : étendre l’oeuvre d’art par-delà son cadre
La fonctionnalité Outpainting, récemment ajoutée à DALL-E 2, permet d’étendre une image par-delà ses bordures d’origine. Vous pouvez l’appliquer à une image créée par l’IA, ou sur une image que vous avez téléchargée.
Ce nouvel outil a déjà été utilisé sur des oeuvres d’art célèbres comme La Joconde. L’IA ajoute des éléments, et le résultat est plutôt impressionnant.
Pour utiliser cette fonction, générez ou téléchargez une image puis réduisez sa taille en tirant les angles. Écrivez votre « prompt », et DALL-E 2 se chargera d’ajouter les éléments souhaités en reprenant le style de l’œuvre d’origine.
Améliorez vos images avec un « Prompt Book » pour DALL-E 2
Afin d’améliorer vos créations, vous pouvez utiliser le « Prompt Book » de Guy Parsons, publié sur le site DALL-Ery GALL-Ery spécialement dédié à l’art IA. Cette ressource visuelle peut vous aider à mieux formuler vos descriptions textuelles et vous inspirer pour exploiter tout le potentiel de DALL-E 2.
Ce guide composé de 82 pages révèle les meilleures techniques pour perfectionner vos résultats sur DALL-E 2. Il recommande notamment les meilleurs adjectifs à utiliser pour atteindre l’ambiance, l’émotion ou la composition esthétique que vous recherchez.
Vous recevrez aussi des astuces pour tous les types d’images, qu’il s’agisse de photographie, de portraits ou de paysages. Les différents styles d’illustrations et d’arts historiques sont abordés, au même titre que l’art en 3D.
Combien coûte DALL-E 2 ?
Pour accéder à DALL-E 2, les utilisateurs doivent acheter des crédits utilisés pour générer des images, effectuer des modifications ou créer des variantes. Voici les détails des tarifs pour DALL-E 2 :
- Crédits gratuits : Les nouveaux utilisateurs reçoivent 50 crédits gratuits lors de l’inscription et 15 crédits supplémentaires chaque mois. Ces crédits expirent après un mois.
- Crédits achetés : Des crédits supplémentaires peuvent être achetés par incréments de 115 crédits pour 15 USD. Ces crédits achetés sont valables pendant 12 mois à compter de la date d’achat.
- Utilisation de l’API : Si vous utilisez l’API DALL-E, le prix dépend de la résolution des images générées :
- Résolution 1024×1024 : 0,020 USD par image
- Résolution 512×512 : 0,018 USD par image
- Résolution 256×256 : 0,016 USD par image
Notons que les artistes peuvent demander un tarif réduit à cette adresse. Les utilisateurs conservent la pleine propriété des images qu’ils créent avec DALL-E 2, ce qui signifie qu’ils peuvent réimprimer, vendre et utiliser commercialement les images sans aucune revendication de la part d’OpenAI.
Par ailleurs, il existe des alternatives gratuites à DALL-E 2, telles que l’IA open source Stable Diffusion permettant de créer des images sans aucune censure. Vous pouvez aussi utiliser l’outil DALL-E Mini, désormais renommé CrAIyon suite aux plaintes d’OpenAI, mais cet outil offre des performances bien plus limitées.
Comment supprimer la watermark DALL-E 2 ?
Les images générées avec DALL-E 2 sont faciles à reconnaître. Elles contiennent une signature ressemblant à une ligne de carrés colorés située en bas à droite de l’image.
Toutefois, le règlement de DALL-E 2 autorise à supprimer cette watermark. Cette suppression est en effet indispensable pour la plupart des cas d’usages commerciaux. Vous pouvez retirer cette signature très facilement avec n’importe quelle application d’édition d’image telle que Photoshop.
Il est également possible de télécharger directement l’image sans watermark. Sur PC, effectuez un clic droit sur l’image, choisissez l’option « Inspecter » et cherchez l’URL windows.net. Copiez le lien de l’image et ouvrez-le. Elle devrait apparaître sans le logo. Sur smartphone ou tablette, vous pouvez presser l’image sur la page de génération et cliquer sur « sauvegarder l’image ».
Les limites de DALL-E 2
OpenAI a programmé DALL-E 2 pour qu’il ne crée pas d’images de personnalités publiques et de célébrités. Il ne génère pas non plus d’images contenant des visages réalistes ou des personnes réelles. Cette restriction vise à empêcher l’utilisation abusive du programme. Toutefois, avec la disponibilité croissante de technologies de « deepfake », des acteurs malveillants pourraient prendre une image de DALL-E et y intégrer le visage de quelqu’un d’autre.
La violation des droits d’auteur pourrait également devenir un problème majeur à mesure que DALL-E 2 gagne en popularité. Bien qu’OpenAI affirme que les utilisateurs bénéficient de tous les droits de commercialisation des images qu’ils créent avec DALL-E, le fait que les générateurs d’art par IA s’inspirent du travail d’artistes humains pour créer de l’art pose des questions sur la propriété intellectuelle.
Faut-il avoir peur de DALL-E ?
L’ouverture de DALL-E 2 semble cohérente avec la ligne de conduite d’OpenAI, dont le nom signifie littéralement « intelligence artificielle ouverte ». Tout un chacun va pouvoir s’essayer à la création artistique assistée par IA.
Toutefois, cette démocratisation soulève aussi des inquiétudes. Rappelons que DALL-E 2 peut produire des images très réalistes, et permet également d’éditer des visages d’humains réels. Par conséquent, des cybercriminels pourraient l’exploiter pour créer des DeepFakes ou usurper des identités.
Contrairement à l’outil open-source Stable Diffusion, autorisant la création de contenu violent et pornographique, DALL-E 2 impose tout de même des limites en termes de contenu.
Comme l’explique OpenAI, ces garde-fous ont été mis en place et dès le départ et ont été améliorés en se basant sur l’usage réel de cette IA. Dans un billet de blog, la firme précise que ces améliorations ont permis l’ouverture de l’accès.
Afin d’empêcher le contenu interdit, OpenAI combine surveillance humaine et automatisée. Les tentatives de créer des images de personnes publiques sont automatiquement bloquées.
Après le succès de DALL-E 2, qui a considérablement amélioré la qualité et la précision des images générées par rapport à la première version, OpenAI a lancé DALL-E 3.
DALL-E 3 : la troisième version du générateur d’images OpenAI
DALL-E 3 a été officiellement lancé par OpenAI en septembre 2023. Cette version a été rendue accessible d’abord aux utilisateurs des services payants d’OpenAI, comme ChatGPT Plus et Enterprise, avant de s’étendre à d’autres plateformes telles que Microsoft Copilot et Bing Image Creator dans les semaines suivantes. La sortie de DALL-E 3 a marqué une amélioration significative par rapport aux versions précédentes, notamment en termes de qualité d’image, de compréhension des instructions textuelles, et de sécurité contre les abus dans la génération de contenu.
Fonctionnement de DALL-E 3
DALL-E 3 utilise un modèle de langage avancé pour décoder les instructions textuelles et générer des images correspondantes. En intégrant les principes de la vision par ordinateur et du traitement du langage naturel, DALL-E 3 peut comprendre les nuances linguistiques, les contextes et les détails complexes pour produire des images qui répondent précisément aux demandes des utilisateurs.
Les utilisateurs peuvent fournir des descriptions détaillées, et l’IA traite ces informations pour créer des images avec des niveaux de précision et de fidélité visuelle inégalés. Comparé à ses prédécesseurs, DALL-E 3 offre une meilleure compréhension des consignes textuelles, ce qui réduit les erreurs et les malentendus dans les images générées.
Principales caractéristiques et améliorations
- Qualité d’image améliorée : DALL-E 3 génère des images avec une résolution et une clarté supérieures, offrant des détails plus fins et des rendus plus réalistes. Les textures, les ombres et les couleurs sont reproduites de manière plus fidèle, ce qui améliore l’attrait visuel des images.
- Contrôle accru pour les utilisateurs : Cette version permet aux utilisateurs de spécifier des détails plus précis, comme les positions des objets, les expressions faciales, ou les styles artistiques spécifiques. DALL-E 3 prend en compte ces nuances pour ajuster les images selon les préférences exactes des utilisateurs.
- Sécurité et filtres éthiques : Pour éviter les abus, DALL-E 3 inclut des filtres stricts qui empêchent la génération de contenus inappropriés, offensants ou nuisibles. OpenAI a mis en place des protocoles pour détecter et bloquer les requêtes qui ne respectent pas les normes d’utilisation éthique.
- Intégration avec des plateformes tierces : DALL-E 3 est intégré à des services comme Microsoft Copilot et Bing Image Creator, offrant une accessibilité accrue à travers des plateformes couramment utilisées. Cette intégration permet aux utilisateurs de créer des images directement depuis ces services sans nécessiter d’applications séparées.
Applications et utilisations courantes
DALL-E 3 est utilisé dans divers domaines, y compris :
- Design et marketing : Création de visuels publicitaires, conceptions de produits, et contenu créatif pour les réseaux sociaux.
- Éducation et recherche : Aide à la visualisation de concepts complexes ou à la création de supports pédagogiques illustrés.
- Art et divertissement : Génération d’art numérique, création de personnages et de paysages fictifs pour des jeux vidéo ou des projets cinématographiques.
Limites et défis
Bien que DALL-E 3 représente une avancée majeure dans la génération d’images par IA, il présente encore quelques défis :
- Dépendance à des descriptions précises : La qualité des images générées dépend fortement de la clarté et de la précision des descriptions fournies par l’utilisateur.
- Coût et accessibilité : Bien que disponible gratuitement via certaines plateformes, l’accès à ses fonctionnalités complètes peut être limité par des abonnements ou des restrictions de crédits.
- Considérations éthiques : Comme toute technologie IA générative, DALL-E 3 soulève des questions sur l’utilisation éthique, la propriété intellectuelle et les impacts potentiels sur les industries créatives.
- Partager l'article :
J’ai pas tout compris comment ça marche pour s’inscrire mais bon j’espère que ça va marcher