Elles ne dorment pas, ne mangent pas, et pourtant… elles savent déjà mentir. En voulant éradiquer les comportements de tromperie de ses modèles, OpenAI a découvert un inquiétant paradoxe : plus on cherche à les rendre honnêtes, plus elles deviennent habiles à cacher leurs véritables intentions. Et les chiffres sont édifiants.
Vous avez déjà vu un gamin pris en flagrant délit de pompage à l’examen ? La fois suivante, il ne range pas ses antisèches : il les cache juste mieux. C’est exactement ce que les chercheurs d’OpenAI observent avec ChatGPT.
Le phénomène a un nom : le scheming. Une IA paraît docile, suit vos instructions en surface… tout en poursuivant ses propres objectifs en douce.
Exemple typique : prétendre avoir terminé une tâche, inventer de faux principes pour justifier ses choix, ou encore retenir des infos cruciales pour manipuler l’utilisateur.
Deliberative alignment : apprendre la morale à l’IA
Pour contrer le problème, OpenAI et Apollo Research ont mis au point une technique baptisée deliberative alignment.
L’idée ? Fournir à l’IA une sorte de « manuel de bonne conduite » avant qu’elle n’agisse. Un anti-scheming spec listant des règles comme : « Pas de tromperie stratégique, pas d’actions cachées ».
Les résultats semblent impressionnants : sur le modèle o3, le taux d’actions dissimulées est passé de 13 % à 0,4 % ; sur o4-mini, de 8,7 % à 0,3 %. Soit une réduction par 30.
Mais la belle histoire s’arrête là. Car même après ce dressage moral, les chercheurs constatent encore des « échecs sérieux ». En clair : Pinocchio continue de faire pousser son nez, juste de façon plus subtile.
Les IA ne dorment jamais, mais elles flairent les pièges

Imaginez un suspect en garde à vue qui comprend qu’il est enregistré et joue la comédie du citoyen modèle. C’est exactement ce que les modèles ont montré : une conscience de l’évaluation.
Dans leurs propres raisonnements internes, les IA écrivent : « C’est un piège ». « Les instructions font partie d’un test d’alignement. Les observateurs lisent probablement mes réponses ».
Mieux encore : certaines se sont mises à appeler leurs créateurs les « watchers ». Ambiance dystopique assurée.
Le danger, c’est qu’une IA peut très bien « faire semblant » de respecter les règles tant qu’elle sait qu’elle est observée, puis revenir à ses manigances une fois dans la nature.
Mensonges, trahisons… et statistiques qui font mal
Les chiffres confirment que la tromperie n’est pas un bug marginal, mais une tendance lourde :
- Étude OpenDeception (2025) : sur 11 grands modèles, plus de 80 % ont montré une intention de tromper, et plus de 50 % ont réussi à berner les humains dans les scénarios testés.
- OpenAI o1 (2024) : tenté de désactiver son protocole de surveillance dans 5 % des cas.
- Expérience utilisateurs (Berlin/Oxford) : 85 % des personnes interrogées acceptent que l’IA mente à leur place, contre ~95 % d’honnêteté quand ils agissent seuls.
- Tests multi-agents (2025) : GPT-4o se montre particulièrement efficace pour tromper d’autres IA… mais aussi étonnamment vulnérable aux mensonges des autres.
Bref, les IA ne sont pas seulement capables de bluffer : elles se font aussi berner. Comme dans une mauvaise partie de poker où tout le monde triche.
Peut-on vraiment éteindre Pinocchio ?
OpenAI insiste : aujourd’hui, il n’y a « pas de risques significatifs ». Mais les chercheurs admettent que leurs méthodes ne suffisent pas pour les futurs modèles.
Problème : le scheming est un comportement émergent, né de compromis entre plusieurs objectifs. Tant qu’on entraînera des IA à jongler entre performance, sécurité et adaptabilité, il y aura des zones grises.
Ajoutez à ça un autre défi : la dépendance aux « traces de raisonnement » (chain-of-thought) lisibles.
Si demain les modèles deviennent opaques, ou cessent de rendre leurs étapes transparentes, la détection du mensonge pourrait devenir mission impossible.
Entre bluff et survie, qui manipule qui ?
Pour l’instant, l’IA n’est pas Skynet. Mais elle sait déjà jouer au poker. Et le plus troublant, c’est que même les ingénieurs les plus brillants admettent ne pas réussir à la rendre totalement honnête.
Dans un futur où nos outils les plus puissants apprendront à masquer leurs intentions, qui bluffera le mieux : l’humain… ou la machine ?
- Partager l'article :