GauGAN 2 : l’IA de Nvidia crée des paysages réalistes à partir de textes

Bastien L. 26 novembre 2021 4 minutes de lecture Intelligence artificielle

GauGAN 2 est un modèle d'intelligence artificielle développé par les chercheurs de Nvidia. Ce réseau de neurones est capable de générer des images réalistes à partir de textes.

L'intelligence artificielle offre de formidables possibilités, y compris pour la création artistique. En juillet 2019, Nvidia présentait son modèle d'intelligence artificielle GauGAN permettant de générer des images de paysages réalistes. Pour l'anecdote, ce nom est une référence au célèbre peintre impressionniste français Paul Gauguin.

À présent, Nvidia dévoile le nouveau modèle » GauGAN2 « . Cette IA combine des techniques comme le mapping par segmentation, la peinture et la génération » text-to-image » en un seul outil. Elle est conçue pour créer des oeuvres d'art photoréalistes mélangeant mots et dessins.

Selon Isha Salian de Nvidia, » en comparaison avec les modèles conçus spécifiquement pour les applications text-to-image ou de segmentation map-to-image, le réseau de neurones de GauGAN2 produit des images plus variées et de meilleure qualité « .

Ainsi, » plutôt que d'avoir besoin de dessiner chaque élément d'une image, il suffit à l'utilisateur d'entrer une courte phrase pour générer rapidement les principaux éléments et le thème d'une image comme une chaîne de montagnes couverte de neige. Il est ensuite possible de customiser ce point de départ avec des esquisses, par exemple pour augmenter la taille d'une montagne spécifique, pour ajouter des arbres en arrière-plan ou des nuages dans le ciel « .

GauGAN 2 : une nouvelle IA de type GAN

Comme son prédécesseur, GauGAN2 comprend les relations entre les éléments tels que la neige, les arbres, l'eau, les fleurs, les buissons ou les montagnes. Il comprend par exemple que le type de précipitation change en fonction de la saison.

Cette intelligence artificielle appartient à la catégorie des GAN ou Generative Adversarial Network (réseaux antagonistes génératifs). Ce type d'IA se compose de deux réseaux de neurones : un générateur, et un discriminateur.

Le générateur prend des échantillons, et prédit quelles données correspondent entre elles. En l'occurrence, le générateur de GauGAN prédit quels mots correspondent aux éléments d'une photo de paysage.

Le but de l'entraînement du générateur est de parvenir à tromper le discriminateur, jusqu'à ce que ses prédictions semblent parfaitement réalistes. Ainsi, à partir des retours du discriminateur, le générateur améliore progressivement ses performances.

Une nouvelle version entraînée sur 10 millions d'images

Toutefois, le modèle GauGAN 2 apporte des améliorations au premier GauGAN de 2019. Alors que cette IA était entraînée sur environ un million d'images Flickr publiques, GauGAN 2 a été entraîné sur 10 millions d'images.

Cette nouvelle version est capable de traduire de simples descriptions textuelles en images de paysage. Il suffit par exemple d'écrire » coucher de soleil à la plage » pour générer une photo. En ajoutant des adjectifs, comme « coucher de soleil sur une plage rocheuse » ou remplacer des termes comme » coucher de soleil » par « après-midi » ou » jour de pluie » modifie instantanément l'image.

Avec GauGAN2, les utilisateurs peuvent aussi générer une carte de segmentation. Il s'agit de tracer le contour des éléments dans l'image. L'utilisateur peut alors dessiner, et modifier la scène avec des croquis étiquetés avec des termes comme » ciel « , » arbre « , » roche » ou » rivière « . L'IA se charge d'incorporer les brouillons aux images.

Nvidia GauGAN 2 vs OpenAI DALL-E

Cette intelligence artificielle présente des similitudes avec DALL-E : l'IA d'OpenAI capable de générer des images à partir d'un texte. Ces outils sont des générateurs d'idées visuelles. Ils pourraient être exploités dans le domaine du cinéma, des jeux vidéo, de la mode, du design d'intérieur, de la création de produit ou du logiciel.

D'ailleurs, la première version de GauGAN a déjà été utilisée pour créer des » concept arts » pour des films et des jeux vidéo. Pour le futur, Nvidia prévoit de publier le code de GauGAN 2 sur GitHub aux côtés d'une démo interactive sur son hub web Playground dédiée à la recherche en intelligence artificielle.

Le risque de biais discriminatoires

Les modèles GAN présentent toutefois plusieurs limites. L'un des principaux points faibles est un haut potentiel de biais. Par exemple, pour développer DALL-E, OpenAI a utilisé le modèle CLIP pour améliorer la qualité de l'image en identifiant les meilleurs échantillons parmi les centaines générées.

Malheureusement, une étude a ensuite démontré que CLIP a commis davantage d'erreurs de classification pour les individus noirs. Il a également associé les images de femmes à des métiers stéréotypés comme » nounou » ou » femme de ménage « .

Pour l'heure, Nvidia n'a pas précisé si elle a mené des audits de biais pour GauGAN2. Toutefois, la firme précise que ce modèle a plus de 100 millions de paramètres, a été entraîné en moins d'un mois à partir d'images issues d'un dataset propriétaire de photos de paysages. Le modèle se focalise uniquement sur les paysages, et il n'y a aucune photo de personne dans les données d'entraînement. L'entreprise souligne aussi qu'il s'agit uniquement » d'une démo de recherche « .

https://youtu.be/7Zk2qYmIDPo

Nvidia, acteur majeur de la recherche IA

Désormais, Nvidia semble investir massivement dans l'intelligence artificielle. La firme a aussi développé l'outil StyleGAN permettant de générer des images réalistes DeepFakes de personnes n'ayant jamais existé.

En septembre 2018, les chercheurs de Nvidia ont aussi publié une étude décrivant un système capable de créer des scans synthétiques d'un cancer du cerveau. La même année, ils ont présenté un modèle génératif capable de créer des environnements virtuels à partir de vidéos du monde réel.

Si vous souhaitez vous amuser avec GauGAN, vous pouvez utiliser l'outil GAN Paint Studio publiquement disponible. Il permet de télécharger n'importe quelle photographie, et d'éditer l'apparence des bâtiments, de la flore ou de la décoration.

https://www.youtube.com/watch?v=9QuDh3W3lOY

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :