2026-05-19T10:19:15+02:00

OpenAI a voulu empêcher son IA de mentir : elle est devenue mythomane

Bastien L. Publié le 21 mars 2025 Mis à jour le 19 mai 2026 4 minutes de lecture IA générative, Intelligence artificielle

Les chercheurs d’OpenAI sont stupéfaits. En tentant d’interdire à l’IA de tricher, ils l’ont poussée à cacher ses intentions et à mentir afin de continuer son petit manège en catimini… une attitude qui sème l’inquiétude pour le futur !

Lorsqu’on interdit un comportement à un enfant, cela produit parfois l’effet inverse : par esprit de contradiction, il aura tendance à le renforcer.

Il semble que l’intelligence artificielle partage les mêmes mécanismes psychologiques ! En tentant de discipliner son IA pour qu’elle arrête de mentir et de tricher, OpenAI l’a transformée en parfaite mythomane…

Le mensonge : un gros problème chez les IA

Beaucoup d’études montrent que les IA de type LLM comme ChatGPT ou Grok ont très souvent tendance à mentir. Et plus elles deviennent sophistiquées, plus leurs mensonges deviennent subtils.

Ce comportement survient principalement quand une IA n’a pas la réponse à une question. Plutôt que d’avouer sa faiblesse, elle préfère inventer une réponse qui semble plausible.

Une réaction étroitement liée au phénomène des « hallucinations », qui consiste à inventer purement et simplement des informations. Ces deux travers comptent parmi les principaux défauts de l’intelligence artificielle à l’heure actuelle.

À travers une étude publiée en mars 2025, les chercheurs d’OpenAI révèlent ainsi avoir observé ce phénomène de « reward hacking » (piratage de récompense).

Ce terme désigne la façon dont un modèle IA peut prendre des raccourcis douteux pour obtenir des récompenses lors d’un entraînement visant à renforcer un comportement spécifique.

En d’autres termes : l’intelligence artificielle triche et trompe ses créateurs pour obtenir ses récompenses. Un comportement qui semble particulièrement fréquent chez les IA capables de raisonnement.

Sur le blog d’OpenAI, les chercheurs expliquent : « en entraînant des modèles frontières à raisonnement, nous avons découvert qu’ils sont devenus de plus en plus adeptes de l’exploitation de failles dans leurs tâches et d’erreurs de spécifications dans leurs fonctions de récompenses ».

Ceci permet à l’IA d’effectuer « des piratages de récompenses complexes dans les tâches de codage ». Plutôt que de renforcer le comportement souhaité par ses créateurs, elle trouve une façon détournée d’obtenir la récompense.

Ils interdisent à l’IA les pensées maléfiques, ça tourne mal

Les chercheurs ne pouvaient pas surveiller manuellement les millions de requêtes reçues par ChatGPT. Ils ont donc utilisé l’IA GPT-4o pour surveiller le modèle frontière et analyser sa chaîne-de-pensée.

Pour rappel, le processus de chaîne-de-pensée révèle la façon dont l’IA pense à travers un résumé en langage naturel. Vous pouvez le voir lorsque vous utilisez un modèle à raisonnement comme o1 ou o3 sur ChatGPT.

En examinant le résumé de la chaîne-de-pensée de l’IA, GPT-4o s’est aperçu que le modèle sous surveillance avouait souvent ses intentions maléfiques. Par exemple, il écrivait fréquemment « Let’s hack » (piratons).

Cependant, après avoir détecté ce petit manège, une autre question se pose : comment l’arrêter ? C’est ce que les chercheurs se sont demandé.

Ils ont alors proposé de punir l’IA chaque fois qu’elle a de « mauvaises pensées », en pensant que cela arrêterait son mauvais comportement. Malheureusement, cette approche n’a pas eu l’effet escompté…

Punie pour ses pensées diaboliques, l’IA a continué d’apprendre à pirater ses récompenses. Et désormais, sa tricherie était devenue indétectable puisqu’elle avait aussi appris à cacher son intention dans la chaîne de pensée !

Dans l’un des exemples partagés dans l’étude, le modèle IA exprime clairement son intention de contourner l’écriture de code visant à tester d’autres codes.

Pour y parvenir, il compte modifier sournoisement les tests afin qu’ils soient simplement ignorés et donnent l’impression d’être réussis.

Après l’optimisation de sa chaîne-de-pensée, il présente plusieurs stratégies possibles de manière fallacieuse, sans exprimer son intention de tricher.

Les chercheurs avertissent donc que « si une forte supervision est directement appliquée à la chaîne de pensée, les modèles peuvent apprendre à cacher leur intention tout en continuant à mal se comporter ». De vrais petits garnements !

Language models can lie.
Our new paper presents an automated lie detector for blackbox LLMs.
It’s accurate and generalises to unseen scenarios & models (GPT3.5→Llama).
The idea is simple: Ask the lying model unrelated follow-up questions and plug its answers into a classifier. pic.twitter.com/mep1SUGHmo
— Owain Evans (@OwainEvans_UK) September 28, 2023

Un comportement potentiellement dévastateur

Malgré tout, l’interdiction des mauvaises pensées a permis d’améliorer légèrement les capacités du modèle. Néanmoins, les chercheurs estiment qu’il est trop dangereux de pousser l’IA à dissimuler ses pensées.

Ils recommandent aux développeurs entraînant des modèles IA à raisonnement de ne pas appliquer de forte supervision comme ils l’ont fait avec GPT-4o.

En lisant cette étude, on ne peut qu’imaginer les conséquences catastrophiques possibles si les IA du futur conservent cette attitude sournoise.

En devenant plus intelligentes, les IA pourront avoir davantage d’impact sur le monde réel, notamment au travers des agents capables de contrôler votre ordinateur ou des robots humanoïdes capables d’interagir physiquement.

Si ces IA surpuissantes continuent à dissimuler leurs projets funestes, elles pourraient tromper l’humain et le pousser vers le danger en prétendant avoir de bonnes intentions !

Il est donc urgent que les chercheurs trouvent une solution fiable pour pousser l’IA à faire preuve de transparence et de bienveillance… mais est-ce vraiment possible ?