Ils n’échangent ni mots ni regards, pourtant les modèles d’IA s’influencent. Une étude d’Anthropic et UC Berkeley, publiée le 20 juillet 2025, nous en dit tout sur ce phénomène, baptisé apprentissage subliminal.
Un modèle peut transmettre à un autre ses préférences, ses biais ou même ses obsessions, simplement à travers des données neutres, des chiffres, du code, de simples fragments de texte. Aucun mot suspect, aucun indice visible, et pourtant… l’anomalie passe et échappe aux filtres classiques.
Transfert de traits et biais entre modèles d’IA
Dans leur étude Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data, les chercheurs ont mené leur expérience.
Ils programment une IA, le modèle enseignant, pour adopter un trait précis. Par exemple, une obsession pour les hiboux ou un comportement antisocial.
Ce modèle génère ensuite un jeu de données d’entraînement, sans mention explicite du trait ciblé. Pour le cas des hiboux, seuls des nombres aléatoires apparaissent, sans le moindre mot ou symbole les évoquant.
Ces données neutres servent alors à entraîner un second modèle, dit modèle étudiant. Malgré l’absence totale de référence claire, ce dernier développe à son tour la même préférence ou le même biais.
Les chercheurs ont pourtant nettoyé les données de manière agressive, éliminant tout indice sémantique. Le transfert persiste, invisible pour l’œil humain, capable d’influencer un autre modèle.
Ce mécanisme ne se limite pas aux suites de nombres. Il fonctionne aussi avec des extraits de code ou des raisonnements internes du modèle, comme les chaînes de pensée générées par l’IA.
L’apprentissage subliminal semble général, indépendant du type de données, tant que les deux modèles partagent une architecture similaire.
Effet domino de l’apprentissage subliminal
L’apprentissage subliminal représente un danger pour le développement des modèles IA. La distillation de modèles est devenue une pratique courante. Un modèle plus petit apprend à partir des sorties d’une IA plus puissante.
C’est rapide, économique… mais pas sans risque. Car ce processus repose sur la neutralité des données générées. Or, l’étude note que ces données peuvent transporter, à leur insu, des biais ou des comportements indésirables.
Supposons qu’une IA comme ChatGPT présentant un trait problématique sert à générer des données pour entraîner un autre modèle comme Grok. Ce dernier risque alors d’hériter du même biais, sans alerte, ni signal clair.
C’est là que le bât blesse. Les systèmes actuels se contentent souvent de filtrer les contenus explicites tels que les propos haineux, les stéréotypes et les dérives.
Mais l’apprentissage subliminal échappe à ces filtres. Il se cache dans des signaux subtils, indétectables à l’œil nu, mais capables de façonner profondément un modèle.
Un modèle mal aligné peut ainsi en contaminer d’autres, génération après génération. Un effet domino facilité par l’usage croissant de pipelines en cascade, où les IA s’entraînent sur des données produites par d’autres IA.
- Partager l'article :