pinnochio openai ia

OpenAI a voulu empêcher son IA de mentir : elle est devenue mythomane

Les chercheurs d’ sont stupéfaits. En tentant d’interdire à l’IA de tricher, ils l’ont poussée à cacher ses intentions et à mentir afin de continuer son petit manège en catimini… une attitude qui sème l’inquiétude pour le futur !

Lorsqu’on interdit un comportement à un enfant, cela produit parfois l’effet inverse : par esprit de contradiction, il aura tendance à le renforcer.

Il semble que l’intelligence artificielle partage les mêmes mécanismes psychologiques ! En tentant de discipliner son IA pour qu’elle arrête de mentir et de tricher, OpenAI l’a transformée en parfaite mythomane

Le mensonge : un gros problème chez les IA

Beaucoup d’études montrent que les IA de type LLM comme ou ont très souvent tendance à mentir. Et plus elles deviennent sophistiquées, plus leurs mensonges deviennent subtils.

Ce comportement survient principalement quand une IA n’a pas la réponse à une question. Plutôt que d’avouer sa faiblesse, elle préfère inventer une réponse qui semble plausible.

Une réaction étroitement liée au phénomène des « hallucinations », qui consiste à inventer purement et simplement des informations. Ces deux travers comptent parmi les principaux défauts de l’intelligence artificielle à l’heure actuelle.

À travers une étude publiée en mars 2025, les chercheurs d’OpenAI révèlent ainsi avoir observé ce phénomène de « reward hacking » (piratage de récompense).

YouTube video

Ce terme désigne la façon dont un modèle IA peut prendre des raccourcis douteux pour obtenir des récompenses lors d’un entraînement visant à renforcer un comportement spécifique.

En d’autres termes : l’intelligence artificielle triche et trompe ses créateurs pour obtenir ses récompenses. Un comportement qui semble particulièrement fréquent chez les IA capables de raisonnement.

Sur le blog d’OpenAI, les chercheurs expliquent : « en entraînant des modèles frontières à raisonnement, nous avons découvert qu’ils sont devenus de plus en plus adeptes de l’exploitation de failles dans leurs tâches et d’erreurs de spécifications dans leurs fonctions de récompenses ».

Ceci permet à l’IA d’effectuer « des piratages de récompenses complexes dans les tâches de codage ». Plutôt que de renforcer le comportement souhaité par ses créateurs, elle trouve une façon détournée d’obtenir la récompense.

systemic hacks frontier models

Ils interdisent à l’IA les pensées maléfiques, ça tourne mal

Les chercheurs ne pouvaient pas surveiller manuellement les millions de requêtes reçues par ChatGPT. Ils ont donc utilisé l’IA GPT-4o pour surveiller le modèle frontière et analyser sa chaîne-de-pensée.

Pour rappel, le processus de chaîne-de-pensée révèle la façon dont l’IA pense à travers un résumé en langage naturel. Vous pouvez le voir lorsque vous utilisez un modèle à raisonnement comme o1 ou o3 sur ChatGPT.

En examinant le résumé de la chaîne-de-pensée de l’IA, -4o s’est aperçu que le modèle sous surveillance avouait souvent ses intentions maléfiques. Par exemple, il écrivait fréquemment « Let’s hack » (piratons).

Cependant, après avoir détecté ce petit manège, une autre question se pose : comment l’arrêter ? C’est ce que les chercheurs se sont demandé.

Ils ont alors proposé de punir l’IA chaque fois qu’elle a de « mauvaises pensées », en pensant que cela arrêterait son mauvais comportement. Malheureusement, cette approche n’a pas eu l’effet escompté

Punie pour ses pensées diaboliques, l’IA a continué d’apprendre à pirater ses récompenses. Et désormais, sa tricherie était devenue indétectable puisqu’elle avait aussi appris à cacher son intention dans la chaîne de pensée !

Dans l’un des exemples partagés dans l’étude, le modèle IA exprime clairement son intention de contourner l’écriture de code visant à tester d’autres codes.

Pour y parvenir, il compte modifier sournoisement les tests afin qu’ils soient simplement ignorés et donnent l’impression d’être réussis.

Après l’optimisation de sa chaîne-de-pensée, il présente plusieurs stratégies possibles de manière fallacieuse, sans exprimer son intention de tricher.

Les chercheurs avertissent donc que « si une forte supervision est directement appliquée à la chaîne de pensée, les modèles peuvent apprendre à cacher leur intention tout en continuant à mal se comporter ». De vrais petits garnements !

?ref_src=twsrc%5Etfw">September 28, 2023

Un comportement potentiellement dévastateur

Malgré tout, l’interdiction des mauvaises pensées a permis d’améliorer légèrement les capacités du modèle. Néanmoins, les chercheurs estiment qu’il est trop dangereux de pousser l’IA à dissimuler ses pensées.

Ils recommandent aux développeurs entraînant des modèles IA à raisonnement de ne pas appliquer de forte supervision comme ils l’ont fait avec GPT-4o.

En lisant cette étude, on ne peut qu’imaginer les conséquences catastrophiques possibles si les IA du futur conservent cette attitude sournoise.

En devenant plus intelligentes, les IA pourront avoir davantage d’impact sur le monde réel, notamment au travers des agents capables de contrôler votre ordinateur ou des robots humanoïdes capables d’interagir physiquement.

Si ces IA surpuissantes continuent à dissimuler leurs projets funestes, elles pourraient tromper l’humain et le pousser vers le danger en prétendant avoir de bonnes intentions !

Il est donc urgent que les chercheurs trouvent une solution fiable pour pousser l’IA à faire preuve de transparence et de bienveillance… mais est-ce vraiment possible ?

YouTube video

Et vous, qu’en pensez-vous ? Comment pourrait-on empêcher les IA de mentir et de tricher ? Partagez vos idées en commentaire !

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥