Un GAN ou Generative Adversarial Network (réseau antagoniste génératif en français) est une technique de Machine Learning. Elle repose sur la mise en compétition de deux réseaux au sein d’un framework.
Ces deux réseaux sont appelés » générateur » et » discriminateur « . Le générateur est un type de réseau neuronal convolutif dont le rôle est de créer de nouvelles instances d’un objet. De son côté, le discriminateur est un réseau neuronal » déconvolutif » qui détermine l’authenticité de l’objet ou s’il fait ou non partie d’un ensemble de données.
Pendant le processus d’entraînement, ces deux entités sont en compétition et c’est ce qui leur permet d’améliorer leurs comportements respectifs. C’est ce que l’on appelle la rétropropagation.
L’objectif du générateur est de produire des outputs sans que l’on puisse déterminer s’ils sont faux, tandis que l’objectif du discriminateur est d’identifier les faux. Ainsi, au fil du processus, le générateur produit des outputs de meilleure qualité tandis que le discriminateur détecte de mieux ne mieux les faux. De fait, l’illusion est de plus en plus convaincante au fil du temps.
Comment fonctionnent les GAN ?
Les rôles du générateur et du discriminateur
- Le générateur : Ce réseau neuronal convolutif crée de nouvelles instances de données à partir d’un bruit aléatoire ou d’autres entrées. Son objectif est de produire des outputs qui paraissent réels.
- Le discriminateur : Ce réseau déconvolutif évalue l’authenticité des données et tente de déterminer si celles-ci proviennent du générateur ou d’un ensemble de données réelles.
Pendant l’entraînement, les deux réseaux sont en perpétuelle compétition :
- Le générateur s’améliore pour tromper le discriminateur.
- Le discriminateur affine ses capacités pour détecter les faux.
Ce processus est répété à travers une technique appelée rétropropagation, permettant aux deux réseaux de progresser simultanément. Avec le temps, le générateur produit des outputs de plus en plus convaincants tandis que le discriminateur devient plus performant pour déceler les faux.
GAN : quels sont les cas d’usage ?
Avant de nous focaliser sur les cas d’usage du GAN, passons d’abord en revue les étapes de base :
- Définir l’objectif : Identifier le type de données que le GAN doit générer (images, sons, etc.).
- Construire un ensemble de données : Créer ou collecter un dataset représentatif.
- Entraîner les réseaux : Les données sont entrées dans le générateur, et les outputs sont évalués par le discriminateur. Ce processus est répété jusqu’à obtenir des résultats satisfaisants.
Cas d’usage populaires
- Deepfakes : Manipulation de vidéos pour créer des contenus hyper-réalistes, souvent controversés.
- Conception artistique : Recréation de peintures, création de faux visages ou de prototypes.
- Animations et mouvements : Simulation de comportements humains pour des films ou jeux vidéo.
- Génération de texte : Production d’articles, descriptions, ou même de scénarios complexes.
- Création de contenu multimédia : Génération d’images, colorisation de photos en noir et blanc, amélioration de résolution.
Exemples concrets
Deepfake de Mark Zuckerberg. En fait, une vidéo virale où il semble se vanter de contrôler les utilisateurs de Facebook.
Mona Lisa animée : Samsung a utilisé un GAN pour donner vie à la célèbre peinture.
Parmi les applications populaires de cette technologie, on peut citer la modification ou la création d’images, la colorisation d’images en noir et blanc, ou encore l’amélioration de la définition d’une image. Il est par exemple possible grâce à cette technologie.
Il est aussi possible de s’en servir pour créer des animations de comportement ou de mouvement humains pour des vidéos. C’est ainsi que l’acteur Harrison Ford a pu être intégré au trailer du film Star Wars : Solo.
De même, les GAN peuvent servir à recréer une peinture ou une photo populaire. C’est ainsi que Mona Lisa a pu prend vie grâce à l’IA de Samsung. On peut aussi s’en servir pour entraîner une IA à écrire des articles pour un blog ou un site web en se basant sur du contenu existant. Il est aussi possible de générer une image à partir de texte, ou encore de produire des représentations photoréalistes de prototypes de produits.
GAN et Data Augmentation
Parmi les avancées réalisées grâce à l’utilisation du Deep Learning dans le domaine de la vision par ordinateur, on compte une technique appelée » data augmentation « ou augmentation des données.
Cette technique permet l’élaboration de modèles plus performants, avec un taux d’erreur fortement réduit. Elle repose sur la création de nouveaux exemples artificiels mais plausibles sur le domaine pour lequel le modèle est entraîné.
Dans le cas des données d’images, la data augmentation peut se présenter sous forme de modifications très simples : rognage, zoom, retournement… et autres transformations des images de l’ensemble de données d’entraînement.
Toutefois, les GAN offrent une alternative et une approche plus spécifique pour la data augmentation. En réalité, la data augmentation elle-même peut être considérée comme une version simplifiée des modèles génératifs.
Tout particulièrement, dans le cas des domaines les plus complexes, où le volume de données est limité, les modèles génératifs permettent un meilleur entraînement des modèles. On utilise notamment les GAN pour le Deep Learning par renforcement.
Ces réseaux génératifs antagonistes peuvent compenser le manque de données, et offrir des résultats multiples. La définition des images peut être améliorée, des images artistiques peuvent être entièrement créées, et il est même possible de modifier les images en changeant par exemple la saison ou en passant du jour à la nuit.
GAN et créativité : quand l’intelligence artificielle devient artiste
Dans le domaine artistique, les GAN ont profondément bouleversé le paysage de la création artistique numérique. Les diverses plateformes comme Midjourney, Artbreeder, RunwayML ou encore GANPaint Studio ont permis aux artistes et créateurs d’explorer aujourd’hui de nouveaux territoires visuels. Ces intelligences artificielles permettent de générer des portraits fictifs ou de fusionner des styles picturaux. Elles permettent même de produire des œuvres originales, parfois vendues sous forme de NFT.
Les GAN offrent une liberté de création quasi infinie. Il suffit de quelques mots ou d’images de référence pour donner naissance à des œuvres inédites. Cette technologie repousse ainsi les limites de l’imagination humaine, en ouvrant la porte à des combinaisons visuelles jusque-là inaccessibles. Mais une telle révolution artistique soulève aussi des questions importantes.
Sur le plan esthétique, les œuvres générées par IA défient les codes traditionnels de la composition et du style. Techniquement, elles nécessitent une maîtrise des outils numériques mais aussi une certaine sensibilité curatoriale. Enfin, éthiquement, la frontière entre création humaine et production algorithmique s’estompe. La question se pose : à qui appartient vraiment l’œuvre ? Quelle est la valeur d’un art généré sans intention humaine directe ?
- Partager l'article :