Les IA générateurs d’images promettent des créations sans limites. Ces photos semblent uniques. Et c’est justement cette originalité qui séduit la plupart des utilisateurs.
Seulement, une recherche récente met en lumière une autre réalité. QU’à force de leur demander toujours plus d’originalité, les modèles finissent par recycler les mêmes idées visuelles.
Pourquoi toutes les images finissent par se ressembler ?
Les modèles d’images reposent sur d’immenses bases visuelles collectées sur le web. Ils combinent ces références pour produire des créations inédites en apparence. Les chercheurs ont voulu observer ce processus sur la durée. Ils ont donc organisé une expérience inspirée du téléphone arabe visuel.
Les chercheurs ont mis en place un jeu de téléphone visuel. Stable Diffusion XL recevait une description courte. Il produisait ensuite une image fidèle au texte reçu. L’image passait ensuite entre les mains de LLaVA, chargé de la décrire.
Cette description repartait vers Stable Diffusion pour créer une nouvelle image. Le cycle s’est répété cent fois. L’image initiale a disparu dès les premières boucles. Les formes ont changé, puis les scènes ont perdu leur sens premier.
Les chercheurs ont étendu l’expérience sur mille tours. Le résultat a surpris l’équipe. Les séquences visuelles ont convergé vers un nombre réduit de styles. Douze motifs dominants ont fini par apparaître presque partout.
Le changement a parfois pris du temps. D’autres séquences ont basculé plus vite. Le phénomène s’est produit presque systématiquement. Les styles ont conservé une structure reconnaissable.
Les scènes récurrentes montrent des phares maritimes, des salons élégants et des rues nocturnes. L’architecture rustique revient souvent. Les couleurs restent douces. L’ambiance rappelle des photos d’hôtels standardisés.
Une musique d’ascenseur visuelle
Les chercheurs ont baptisé ces images « musique d’ascenseur visuelle ». L’expression décrit des scènes neutres et faciles à accepter. Elles n’agressent pas l’œil. Elles rappellent des images vues dans de nombreux catalogues.
L’équipe a utilisé d’autres modèles pour vérifier l’effet. Les mêmes tendances sont apparues. Le style dominant surgit souvent vers le centième tour. Des variations apparaissent ensuite, tout en restant proches des motifs connus.
Chaque variation conserve des éléments visuels déjà populaires. Les scènes restent sages. Les compositions favorisent des cadres équilibrés. Les couleurs gardent une saturation modérée. L’ensemble paraît propre et rassurant.
Cette mécanique contraste avec la créativité humaine. Dans un jeu de téléphone classique, chaque personne interprète différemment le message. Les biais individuels enrichissent le résultat. L’IA fonctionne à l’inverse, avec des préférences statistiques figées.
La richesse apparente provient surtout des données d’entraînement. Les modèles reproduisent ce qui capte l’attention humaine. Les scènes souvent photographiées gagnent naturellement en visibilité. Le goût collectif se transforme en norme algorithmique.
L’étude invite donc à relativiser l’originalité des images générées. Copier un style demande peu d’efforts pour une machine. Enseigner le sens esthétique s’avère bien plus complexe. La créativité humaine conserve une longueur d’avance.
- Partager l'article :
