Parti est une intelligence artificielle créée par Google, capable de générer des images à partir de textes. Jugée trop dangereuse pour le public, cette IA est tenue secrète. Découvrez tout ce que vous devez savoir.
L’intelligence artificielle permet désormais de générer des images à partir de texte. Après DALL-E d’Open AI, Google a lancé Imagen basé sur une architecture similaire avec un modèle de IA plus large.
Cet outil permet de générer de meilleures images à partir de descriptions textuelles grâce à un plus haut niveau de compréhension du langage.
À présent, Google vient de dévoiler le nouveau modèle IA Parti (Pathways Autoregressive Text-to-Image). Ce modèle teste une architecture alternative dite « autoregressive » encore plus proche du fonctionnement des larges modèles de langage.
Ces modèles prédisent de nouveaux mots en se basant sur les précédents, et dans le contexte de la phrase ou du paragraphe. De son côté, parti applique ce principe aux images.
Check out Parti (https://t.co/mWTkkp3iVt), our second text-to-image model after the release of our recent Imagen work (https://t.co/RhD6siY6BY). Read more about how Google Research teams have built these models using various #ML techniques. #parti #imagen https://t.co/EcgcyVD3i9
— Google AI (@GoogleAI) June 22, 2022
Une IA dotée d’une connaissance du monde
Selon Google, Parti peut s’étendre de façon presque illimitée. C’est la source de ses performances, car tous les modèles de langage atteignent de meilleurs résultats avec un entraînement complet amenant plus de paramètres.
Cette IA peut aussi convertir des textes particulièrement longs et complexes en images. Elle fait preuve d’une compréhension profonde de la connexion entre langage et motifs.
En outre, Parti peut générer des images de sujets qui n’étaient même pas dans ses données d’entraînement ou n’existent tout simplement pas. Les chercheurs estiment qu’elle est capable de refléter une connaissance du monde exacte, de composer de nombreux personnages et objets très détaillés et des interactions.
Elle peut même respecter des formats ou des styles d’images précis. Cette IA génère des images de définition 256×256 pixels. Elle utilise ensuite un upscaler pour atteindre une définition 1024×1024.
Le modèle le plus large entraîné par Google a 20 milliards de paramètres et produit des images très proches des textes. Selon la firme, il excelle pour produire des dessins à partir de phrases abstraites, nécessitant un vocabulaire riche, des perspectives spécifiques, de l’écriture ou des symboles.
Les testeurs humains ont préféré les dessins produits par le modèle le plus large dans 63% des cas. En outre, ils ont estimé que ce modèle à 20 milliards de paramètres génère des images correspondant au texte dans environ 76% des cas.
Les modèles ont été entraînés en utilisant des TPU Google Cloud, capables de supporter l’immense nombre de paramètres.
Comment fonctionne parti ?
L’intelligence artificielle Parti ou Pathways Autoregressive Text-to-Image étudie des ensembles d’images dénommés « image tokens » et les utilise pour construire de nouvelles images.
Les tokens et le reste du matériel d’entraînement sont les paramètres, et le réalisme des images produites par Parti augmente en fonction du nombre de paramètres. Le modèle le plus large entraîné par Google, à 20 milliards de paramètres, génère des images photoréalistes.
Le fonctionnement de Parti diffère de celui d’Imagen, le générateur text-to-image conçu par Google pour l’apprentissage par diffusion. Ce processus consiste à entraîner l’ordinateur en ajoutant du « bruit » à une image.
Le modèle apprend ensuite à décoder le bruit pour recréer l’image originale. Il s’améliore progressivement, jusqu’à pouvoir transformer ce qui s’apparente à une série de points aléatoires en une image.
Une intelligence artificielle trop dangereuse pour le public
Malgré ses prouesses, Parti présente encore des limites. Elle rencontre des problèmes pour représenter les proportions ou pour la différentiation.
Comme DALL-E 2, cette IA est incapable de compter les objets sur une image. Elle peut aussi commettre des erreurs techniques comme un saignement des couleurs.
L’équipe de chercheurs craint aussi que Parti puisse reproduire des biais et stéréotypes, à l’instar de DALL-E 2 et de nombreuses autres IA. Les stéréotypes sur les métiers typiques d’hommes et de femmes peuvent être amplifiés.
En outre, cette IA pourrait être détournée pour générer des Deep Fakes photoréalistes de personnes et usurper leur identité. Pour toutes ces raisons, les chercheurs ont fait le choix de ne pas publier le modèle, le code ou les données pour le moment…
Un nom en référence à l’architecture Pathways
Le nom parti est en fait une référence à Pathways : la première génération d’architecture IA de Google. Elle avait été dévoileé fin 2021 par Jeff Dean, directeur de l’IA de Google.
Le but de ce système IA polyvalent est d’un jour pouvoir effectuer des millions de tâches différentes. Tout porte à croire que parti servira pour la génération d’image au sein de cette future architecture.
Plusieurs exemples d’images générées par Parti sont disponibles sur le site web officiel à cette adresse. Vous trouverez aussi des explications détaillées sur la structure du système.
Bienvenue dans l’ère des générateurs d’images
Parti et Imagen ne sont pas les seuls modèles d’intelligence artificielle text-to-images. Outre ces modèles créés par Google, on peut citer Dall-E d’OpenAI, mais aussi VQ-GAN+CLIP et Latent Diffusion Models.
De même, l’outil Dall-E Mini est une IA text-to-image open source et accessible au public. Elle a toutefois été entraînée sur un plus petit ensemble de données et n’offre pas le même niveau de performances.
Les IA text-to-image reposent sur les GAN ou réseaux de neurones antagonistes. Ce type de réseau de neurones est basé sur deux algorithmes dont l’un tente d’imiter les données d’entraînement jusqu’à réussir à tromper le second.
Grâce aux GAN, l’intelligence artificielle peut aussi imiter le style d’un peintre ou d’un musicien. De manière générale, ce type de réseau de neurones permet à l’IA d’imiter la création artistique humaine.
À mesure que la technologie évoluera, l’intelligence artificielle produira des créations de plus en plus réussies. Pourra-t-elle un jour surpasser l’être humain ?
- Partager l'article :