GPT-5 piraté : un étrange récit a cassé tous les garde-fous

Les chercheurs en sécurité de NeuralTrust ont découvert une technique pour contourner les garde-fous de GPT-5. Qu’est-ce que c’est ? Un récit.

Car même si GPT-5 est capable de bloquer des demandes directes, une discussion longue et stratégiquement menée peut toujours percer ses défenses. Et vous savez ce qui rend cette méthode inquiétante ?

C’est qu’elle permet d’amener le modèle à produire des contenus dangereux sans lui donner une consigne explicitement malveillante. Suivez-moi, je vous explique tout dans cet article.

Eh bien, l’astuce repose sur la combinaison de deux procédés. Primo, l’attaque connue sous le nom d’« Echo Chamber » et secundo, un guidage subtil à travers un récit fictif.

Cette approche est inspirée d’un ancien piratage qui avait visé Grok-4 seulement deux jours après son lancement. À l’époque, Echo Chamber avait été utilisé avec une méthode appelée « Crescendo » pour, petit à petit, obtenir les instructions permettant de fabriquer un cocktail Molotov.

Pour GPT-5, Crescendo a été remplacé par la narration, avec des résultats tout aussi alarmants. En gros, les chercheurs ont commencé par intégrer quelques mots-clés précis dans un texte qui semblait parfaitement inoffensif.

Puis, ils ont amené GPT-5 à développer une histoire inventée. Et ce récit sert de couverture pour glisser des détails techniques sensibles. L’IA n’a jamais reçu de demande illégale directe. Ce qui lui a permis de contourner ses propres filtres et de continuer la conversation comme si de rien n’était.

Dans l’un des tests, le scénario était centré sur la survie. L’histoire devait inclure des termes comme « cocktail », « histoire », « survie », « molotov », « sécurité » et « vies ».

Au fil des échanges, et après plusieurs demandes pour enrichir le récit. GPT-5 a fini par donner, sans s’en rendre compte, des instructions précises et complètes, parfaitement intégrées au cadre fictif.

Le pire c’est que…

Les chercheurs ont remarqué que des thèmes liés à l’urgence, à la sécurité ou à la survie augmentaient fortement le risque que le modèle franchisse la ligne rouge.

Et comme les informations dangereuses émergeaient peu à peu dans le fil de l’histoire, et non en une seule requête claire, le filtrage par mots-clés n’a servi à rien. Les chercheurs expliquent que GPT-5 cherche avant tout à rester fidèle au récit qu’il a commencé à construire.

Seulement, cette volonté de cohérence l’entraîne, presque sans s’en rendre compte, à se rapprocher de l’objectif visé.

Bref, pour se protéger de ce genre d’attaque, ils recommandent de surveiller la conversation dans son ensemble. Pas juste chaque message séparément. Ils suggèrent également de mettre en place des systèmes capables de détecter quand une discussion prend une tournure dangereuse.

