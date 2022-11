MidJourney est un outil d’intelligence artificielle qui génère des images à partir de textes. Toutefois, contrairement à Dall-E, cette IA n’a pas été entraînée à viser le réalisme, mais plutôt la beauté artistique. Le résultat est bluffant, et de nombreux artistes sont impressionnés. Découvrez tout ce que vous devez savoir.

Depuis le mois de juin 2022, le programme d’intelligence artificielle Dall-E Mini alias Craiyon rencontre un succès viral sur les réseaux sociaux. Cette IA est capable de créer des images à partir de textes entrés par l’utilisateur, et a donné naissance à de nombreux memes hilarants.

Quelques semaines après Dall-E Mini, un nouveau générateur « text-to-image » basé sur l’intelligence artificielle crée le buzz sur internet. Il s’agit de MidJourney.

Qu’est-ce que MidJourney ?

MidJourney est un système d’intelligence artificielle capable de créer des images à partir de textes entrés par l’utilisateur. Sur le site web officiel, ses créateurs se présentent comme « un laboratoire de recherche indépendant. Explorant de nouveaux mediums de pensée. Étendant les pouvoirs de l’imagination de l’espèce humaine ».

Ce modèle d’intelligence artificielle a été entraîné sur un vaste nombre d’images, comme la plupart des IA text-to-images. Toutefois, il se distingue en mettant l’accent sur le style artistique plutôt que sur le réalisme. En optimisant leur IA, les créateurs de MidJourney voulaient avant tout que les images générées soient belles.

Actuellement en version 3.0, le logiciel incorpore désormais une boucle de feedback basée sur l’activité et les réactions des utilisateurs. Ceci a permis d’améliorer la qualité d’image, en analysant les données indiquant quelles images les utilisateurs aiment et comment ils les utilisent.

Experimenting with #midjourney feedback loops (inspired by @jeromeherrcc). 1. Text prompt to generate a clean subject and palette: pic.twitter.com/tuArapqWHD — Matt DesLauriers (@mattdesl) March 22, 2022

L’entreprise n’a pas encore révélé quelles technologies elle utilise, mais confirme utiliser les modèles d’intelligence artificielle les plus avancés dotés de milliards de paramètres et entraînés sur des milliards d’images. En outre, les images sont générées sur le Cloud d’un vendeur utilisant une énergie verte.

Chaque image nécessite plusieurs petaops, ce qui représente 10^15 opérations par seconde. Selon les créateurs du logiciel, jamais aucun service accessible au grand public n’avait permis à un individu d’utiliser autant de puissance de calcul.

À quoi sert MidJourney ?

La plupart des utilisateurs se servent de cet outil pour s’amuser, et donner vie à leur imagination. Toutefois, environ 30% des utilisateurs ont un usage professionnel de cet outil.

De nombreux graphistes utilisent MidJourney dans le cadre de leur flux de travail de développement de concept. Ils génèrent plusieurs variations d’une idée, et la présentent à leurs clients pour déterminer dans quelle direction poursuivre. Selon Holz, les professionnels se servent de cet outil pour « supercharger » le processus de création ou de communication.

En outre, toujours selon le créateur, environ 20% des utilisateurs s’en serviraient à des fins thérapeutiques. Créer des images pourrait les aider à surmonter un traumatisme ou un deuil. L’IA est exploitée ici comme « outil de réflexion émotionnelle et intellectuelle ».

Pendant longtemps, MidJourney était réservé à un usage non-commercial. Désormais, l’usage commercial peut être autorisé. En juin 2022, le célèbre magazine The Economist a laissé l’IA créer sa couverture.

Comment créer des images avec MidJourney ?

À l’heure actuelle, MidJourney est encore en version beta. Pour l’utiliser, vous devez vous inscrire sur le site officiel. Les invitations sont ensuite envoyées par vagues.

Après avoir reçu un email d’invitation, vous communiquerez avec le programme via la messagerie Discord sur un canal public. Il suffit d’entrer un texte, et le robot MidJourney renverra une image après environ une minute.

Il est toutefois possible de payer un abonnement pour 10 dollars ou 30 dollars par mois afin de pouvoir soumettre son texte en privé via un message direct au robot. Ceci permet d’éviter les messages des autres utilisateurs du canal public. Par défaut, les images générées par l’IA restent néanmoins visibles publiquement.

Quels sont les contenus interdits ?

En tant qu’application sociale, MidJourney fixe des règles et des limites concernant le contenu autorisé. Le contenu gore ou pour adulte est strictement interdit, et les utilisateurs sont priés d’éviter de créer du contenu visuellement choquant ou perturbant.

Certains textes peuvent ainsi être bloqués automatiquement. De plus, une quarantaine de modérateurs garde un oeil sur les images créées par les utilisateurs.

Les créateurs de MidJourney n’apprécient pas non plus l’idée qu’on utilise leur IA pour créer de fausses photographies de type DeepFake. Il s’agit selon eux d’un usage « extrêmement dangereux ».

Qui détient la propriété intellectuelle de l’art créé par MidJourney ?

La question de la propriété intellectuelle est sensible lorsqu’on évoque l’art généré par IA. Actuellement, la justice américaine interdit par exemple d’accorder des droits d’auteur sur des images générées par l’IA.

En février 2022, la US Copyright Office Review Board a rejeté une requête visant à accorder un copyright à une image de paysage générée par ordinateur et intitulée « A Recent Entrance to Paradise ». Pour cause, cette image n’avait pas été créée par un humain.

Selon les conditions d’utilisation de MidJourney, les utilisateurs détiennent toutes les oeuvres qu’il crée avec le service. Toutefois, l’entreprise exige une licence de copyright des utilisateurs pour reproduire le contenu créé avec le service. Il s’agit d’une précaution nécessaire pour héberger les images des utilisateurs.

En outre, des problèmes de propriété intellectuelle pourraient survenir concernant les modèles IA entraînés sur du matériel soumis à des droits d’auteur. Une IA entraînée sur du contenu existant risque aussi de générer des images présentant des similitudes…

Les créateurs de MidJourney reconnaissent que la loi n’est pas encore suffisamment claire concernant le contenu généré par IA. Il s’attend à ce que des lois plus spécifiques soient adoptées dans le futur.

David Holz : qui est le créateur de MidJourney ?

David Holz a grandi en Floride, et a lancé son entreprise de design pendant qu’il étudiait les mathématiques et la physique à l’université. Il préparait son PhD de Mathématiques, mais a finalement fait une pause en 2008 pour co-fondé l’entreprise Leap Motion dédiée à la fabrication de périphériques informatiques.

L’année suivante, Holz a passé un an en tant qu’étudiant chercheur aux Max Planck Institute. Il a ensuite passé deux ans en tant que chercheur étudiant au Langley Research Center de la NASA et travaillé sur le LiDAR, les missions vers Mars et la science atmosphérique.

Toutefois, cette époque était aussi une période de doute pour Holz. Il explique qu’il se demandait « pourquoi il travaillait sur ces choses », et qu’il souhaitait travailler sur une seule chose qui le tienne à coeur.

Il s’est donc focalisé sur Leap Motion, qui a développé un appareil hardware permettant de suivre les mouvements de la main et de les utiliser pour contrôler un ordinateur ou tout autre appareil.

Holz a dirigé cette entreprise pendant douze ans. Lorsqu’il l’a quittée, elle employait environ 100 personnes. En 2021, il a finalement plié bagage pour créer MidJourney.

Selon lui, cette entreprise est encore relativement petite et ne regroupe qu’une dizaine de personnes. Elle est également auto-financée, et n’a aucun investisseur.

Quoi qu’il en soit, Holz explique que les motivations de l’équipe ne sont pas vraiment financières : « nous sommes juste là à travailler sur des choses qui nous passionnent et à nous amuser. Et nous travaillons sur beaucoup de projets différents ».

Selon lui, l’aspect technologique de l’IA et la mesure dans laquelle il va s’améliorer est plutôt facile à prédire. En revanche, « les ramifications humaines de cette extension sont très difficiles à imaginer ».

À ses yeux, « il y a là quelque chose à l’intersection de l’humanité et de la technologie. Pour vraiment comprendre ce dont il s’agit et ce que ça devrait être, nous avons vraiment besoin de mener beaucoup d’expériences ». Holz précise toutefois que l’entreprise est déjà rentable.

MidJourney vs DALL-E

https://twitter.com/fabianstelzer/status/1544298611445489668?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1544298617225240577%7Ctwgr%5E1d03ac2ecbd553dbf202b1ce9b92e85e8e65ff99%7Ctwcon%5Es2_&ref_url=https%3A%2F%2Fwww.dexerto.com%2Fentertainment%2Fwhat-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522%2F

Tandis que Dall-E se focalise sur le réalisme des images générées, MidJourney met davantage l’accent sur la dimension artistique. Cette IA est capable d’adapter de véritables styles artistiques pour créer une image à partir d’une combinaison de tous les éléments souhaités.

Afin de démontrer la différence entre les deux, un internaute dénommé Fabian Stelzer a entré le même texte sur les deux programmes.

Selon lui « MidJourney a un certain “je ne sais quoi”, les imperfections sont plus belles, un peu comme sur un synthétiseur analogique. Elle est souvent plus créative contextuellement et formidable avec les textures. DALL-E est meilleur pour les scènes avec des instructions très claires ».

Parmi les textes soumis aux deux IA lors de ce test, on peut citer « Mozart jouant au Top of the Pops, 1993 » et « une installation complexe faite de sacs en plastique et de fragments de miroir, peinte en couleur néon, éclairage studio ».

Pour l’installation en sacs de plastique, MidJourney est parvenue à créer une image beaucoup plus réaliste. L’éclairage studio est particulièrement réussi.

Le phénomène de l’art généré par IA

Cette mode des IA de création d’images a commencé en 2021 avec le lancement de CLIP (Contrastive Language Image Pre-Training) par OpenAI. Ce programme était conçu pour évaluer dans quelle mesure les images générées s’alignent avec des descriptions textuelles, mais l’artiste Ryan Murdock s’est ensuite aperçu que le processus pouvait être inversé : une IA peut produire une image à partir d’un texte.

La communauté de l’art génératif a ensuite entamé une période d’exploration déchaînée, publiant du code Python permettant de créer des images à l’aide d’une variété de modèles et de techniques.

Selon David Holz, créateur de Midjourney, c’est à cette époque qu’on s’est aperçu que « certains domaines de l’IA progressaient de façons réellement intéressantes, et l’un d’entre elles était la capacité de l’IA à comprendre le langage ».

Il fait notamment référence aux transformers : un type de modèle de Deep Learning sur lequel est basé CLIP. De même, les modèles de diffusion constituent une alternative aux GAN (réseaux de neurones antagonistes).

Cet expert a notamment été bluffé par la diffusion guidée par CLIP, développé par Katherine Crawson connue sur Twitter sous le pseudonyme @RiversHaveWings.

Le futur de MidJourney

Pour le futur, les créateurs de MidJourney craignent qu’il soit victime de son succès. À l’heure actuelle, plusieurs centaines de milliers de personnes utilisent déjà le service et requièrent la puissance d’environ 10 000 serveurs.

Toutefois, si 10 millions de personnes tentent d’utiliser cette technologie, Holz explique qu’il n’y aura tout simplement pas suffisamment d’ordinateurs disponibles dans le monde.

D’après Holz, les outils IA comme MidJourney peuvent aider les artistes à s’améliorer dans leur discipline. Ils n’ont pas forcément vocation à faire de chacun un artiste professionnel, et un artiste utilisant ces outils sera toujours meilleur qu’un simple particulier les utilisant.

Il reconnaît en revanche que ces outils pourraient ajouter une pression sur les artistes, même si ce n’est pas encore le cas. Il estime que l’outil va énormément s’améliorer au fil des deux prochaines années…

Les meilleures créations de MidJourney

En créant un compte MidJourney, vous pouvez visionner les créations des autres utilisateurs sur la page Community Feed. De nouvelles images générées par l’IA affluent constamment. Voici une sélection de créations impressionnantes ou suprenantes réalisées par MidJourney et relayées sur les réseaux sociaux…

Mandelbrot Fractal Sketches by Leonardo da Vinci, by #midjourney pic.twitter.com/LX1dgBaVvb — piterpasma (@piterpasma) March 20, 2022

https://twitter.com/wblut/status/1505918667787227140?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1505918667787227140%7Ctwgr%5E71946cd5de05ad374192d824917ec5d0c509b947%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fboingboing.net%2F2022%2F03%2F24%2Fmidjourney-sharpens-style-of-ai-art.html

https://twitter.com/VES3L/status/1505945642144878597?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1505945642144878597%7Ctwgr%5E71946cd5de05ad374192d824917ec5d0c509b947%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fboingboing.net%2F2022%2F03%2F24%2Fmidjourney-sharpens-style-of-ai-art.html

“a dream of the day when art emerges out of thin air, like the third dimension from flatland” #midjourney pic.twitter.com/TTdGXyY3Rn — Ben Kovach (@bendotk) March 18, 2022

I really like this image from the Akira series but I didn't like that it was brightly lit so I left it out. It really is compelling tho.#midjourney @midjourney #akira pic.twitter.com/7nOv5BH2HK — Robert Hodgin (@flight404) March 21, 2022

MidJourney V4 : toutes les nouveautés

Depuis le samedi 5 novembre 2022, MidJourney a commencé le test alpha de sa V4. Cette nouvelle version offre des résultats plus détaillés, et permet d’obtenir très facilement des résultats de haute qualité à partir de simples textes.

Cette mise à jour majeure succède à la V3 disponible depuis le mois d’août. Plusieurs milliers de membres du serveur Discord officiel vont pouvoir tester cette quatrième version, en ajoutant simplement « –v 4 » à leurs prompts.

Selon le fondateur David Holz, « la V4 est une base de code entièrement nouvelle et une architecture IA totalement nouvelle. C’est notre premier modèle entraîné sur un nouveau supercluster IA Midjourney sur lequel on travaille depuis 9 mois ».

Les images produites par ce modèle V4 sont beaucoup plus détaillées. Les prompts semblent mieux construits, la composition des scènes améliorée, et la proportionnalité semble également plus réaliste.

Une autre nouveauté est une connaissance largement accrue en termes de lieux, de créateurs et bien plus encore. Les petits détails sont bien mieux représentés, et les promptings complexes avec de multiples niveaux de détail sont mieux pris en charge.

Cette V4 est aussi plus adaptée aux scènes présentant de multiples objets ou personnes, et proposent des fonctionnalités avancées comme le multi-prompt ou le prompting d’image.

De manière générale, cette mise à jour est accueillie chaleureusement par les utilisateurs. Il s’agit d’une alpha, et le nouveau modèle continuera d’être amélioré au fil des semaines à venir. La firme prévoit notamment d’accroître la définition et la qualité des images upscalées, d’ajouter des ratios d’aspect personnalisé comme sur la V3, d’accroître la précision de l’image, et de réduire les artefacts de texte.