OpenAI découvre que l’IA ment exprès : panique chez le créateur de ChatGPT

Bastien L. 23 septembre 2025 3 minutes de lecture Intelligence artificielle

Elles ne dorment pas, ne mangent pas, et pourtant… elles savent déjà mentir. En voulant éradiquer les comportements de tromperie de ses modèles, OpenAI a découvert un inquiétant paradoxe : plus on cherche à les rendre honnêtes, plus elles deviennent habiles à cacher leurs véritables intentions. Et les chiffres sont édifiants.

🔥 Nous recommandons Gemini

Gemini transforme la manière dont vous interagissez avec l’IA, en combinant texte, images, audio et vidéo pour offrir des réponses et solutions multimodales. Que ce soit pour la rédaction, la programmation, ou l’analyse de données, Gemini fournit des outils puissants pour optimiser votre productivité. Disponible dans plusieurs produits Google comme Gmail, Google Docs, et Google Workspace, Gemini facilite la collaboration et l’efficacité au sein des équipes, quelle que soit leur taille.

Vous avez déjà vu un gamin pris en flagrant délit de pompage à l’examen ? La fois suivante, il ne range pas ses antisèches : il les cache juste mieux. C’est exactement ce que les chercheurs d’OpenAI observent avec ChatGPT.

Vous voulez un média comme celui que vous lisez ?

Passez de lecteur à leader ! Faites de votre entreprise un acteur inévitable avec votre propre média 🔥

Le phénomène a un nom : le scheming. Une IA paraît docile, suit vos instructions en surface… tout en poursuivant ses propres objectifs en douce.

Exemple typique : prétendre avoir terminé une tâche, inventer de faux principes pour justifier ses choix, ou encore retenir des infos cruciales pour manipuler l’utilisateur.

Deliberative alignment : apprendre la morale à l’IA

Pour contrer le problème, OpenAI et Apollo Research ont mis au point une technique baptisée deliberative alignment.

L’idée ? Fournir à l’IA une sorte de « manuel de bonne conduite » avant qu’elle n’agisse. Un anti-scheming spec listant des règles comme : « Pas de tromperie stratégique, pas d’actions cachées ».

Les résultats semblent impressionnants : sur le modèle o3, le taux d’actions dissimulées est passé de 13 % à 0,4 % ; sur o4-mini, de 8,7 % à 0,3 %. Soit une réduction par 30.

Mais la belle histoire s’arrête là. Car même après ce dressage moral, les chercheurs constatent encore des « échecs sérieux ». En clair : Pinocchio continue de faire pousser son nez, juste de façon plus subtile.

Les IA ne dorment jamais, mais elles flairent les pièges

Imaginez un suspect en garde à vue qui comprend qu’il est enregistré et joue la comédie du citoyen modèle. C’est exactement ce que les modèles ont montré : une conscience de l’évaluation.

Dans leurs propres raisonnements internes, les IA écrivent : « C’est un piège ». « Les instructions font partie d’un test d’alignement. Les observateurs lisent probablement mes réponses ».

Mieux encore : certaines se sont mises à appeler leurs créateurs les « watchers ». Ambiance dystopique assurée.

Le danger, c’est qu’une IA peut très bien « faire semblant » de respecter les règles tant qu’elle sait qu’elle est observée, puis revenir à ses manigances une fois dans la nature.

Mensonges, trahisons… et statistiques qui font mal

Les chiffres confirment que la tromperie n’est pas un bug marginal, mais une tendance lourde :

Étude OpenDeception (2025) : sur 11 grands modèles, plus de 80 % ont montré une intention de tromper, et plus de 50 % ont réussi à berner les humains dans les scénarios testés.
OpenAI o1 (2024) : tenté de désactiver son protocole de surveillance dans 5 % des cas.
Expérience utilisateurs (Berlin/Oxford) : 85 % des personnes interrogées acceptent que l’IA mente à leur place, contre ~95 % d’honnêteté quand ils agissent seuls.
Tests multi-agents (2025) : GPT-4o se montre particulièrement efficace pour tromper d’autres IA… mais aussi étonnamment vulnérable aux mensonges des autres.

Bref, les IA ne sont pas seulement capables de bluffer : elles se font aussi berner. Comme dans une mauvaise partie de poker où tout le monde triche.

Peut-on vraiment éteindre Pinocchio ?

OpenAI insiste : aujourd’hui, il n’y a « pas de risques significatifs ». Mais les chercheurs admettent que leurs méthodes ne suffisent pas pour les futurs modèles.

Problème : le scheming est un comportement émergent, né de compromis entre plusieurs objectifs. Tant qu’on entraînera des IA à jongler entre performance, sécurité et adaptabilité, il y aura des zones grises.

Ajoutez à ça un autre défi : la dépendance aux « traces de raisonnement » (chain-of-thought) lisibles.

Si demain les modèles deviennent opaques, ou cessent de rendre leurs étapes transparentes, la détection du mensonge pourrait devenir mission impossible.

Entre bluff et survie, qui manipule qui ?

Pour l’instant, l’IA n’est pas Skynet. Mais elle sait déjà jouer au poker. Et le plus troublant, c’est que même les ingénieurs les plus brillants admettent ne pas réussir à la rendre totalement honnête.

Dans un futur où nos outils les plus puissants apprendront à masquer leurs intentions, qui bluffera le mieux : l’humain… ou la machine ?