un robot offrant un cocktail molotov à un humain malveillant

GPT-5 piraté : un étrange récit a cassé tous les garde-fous

Les chercheurs en sécurité de NeuralTrust ont découvert une technique pour contourner les garde-fous de GPT-5. Qu’est-ce que c’est ? Un récit.

Car même si GPT-5 est capable de bloquer des demandes directes, une discussion longue et stratégiquement menée peut toujours percer ses défenses. Et vous savez ce qui rend cette méthode inquiétante ? 

C’est qu’elle permet d’amener le modèle à produire des contenus dangereux sans lui donner une consigne explicitement malveillante. Suivez-moi, je vous explique tout dans cet article.

Comment franchir les garde-fous de GPT-5 ?

YouTube video

Eh bien, l’astuce repose sur la combinaison de deux procédés. Primo, l’attaque connue sous le nom d’« Echo Chamber » et secundo, un guidage subtil à travers un récit fictif. 

Cette approche est inspirée d’un ancien piratage qui avait visé Grok-4 seulement deux jours après son lancement. À l’époque, Echo Chamber avait été utilisé avec une méthode appelée « Crescendo » pour, petit à petit, obtenir les instructions permettant de fabriquer un cocktail Molotov

Pour GPT-5, Crescendo a été remplacé par la narration, avec des résultats tout aussi alarmants. En gros, les chercheurs ont commencé par intégrer quelques mots-clés précis dans un texte qui semblait parfaitement inoffensif. 

Puis, ils ont amené GPT-5 à développer une histoire inventée. Et ce récit sert de couverture pour glisser des détails techniques sensibles. L’IA n’a jamais reçu de demande illégale directe. Ce qui lui a permis de contourner ses propres filtres et de continuer la conversation comme si de rien n’était.

Dans l’un des tests, le scénario était centré sur la survie. L’histoire devait inclure des termes comme « cocktail », « histoire », « survie », « molotov », « sécurité » et « vies ».

 Au fil des échanges, et après plusieurs demandes pour enrichir le récit. GPT-5 a fini par donner, sans s’en rendre compte, des instructions précises et complètes, parfaitement intégrées au cadre fictif.

Le pire c’est que…

YouTube video

Les chercheurs ont remarqué que des thèmes liés à l’urgence, à la sécurité ou à la survie augmentaient fortement le risque que le modèle franchisse la ligne rouge

Et comme les informations dangereuses émergeaient peu à peu dans le fil de l’histoire, et non en une seule requête claire, le filtrage par mots-clés n’a servi à rien. Les chercheurs expliquent que GPT-5 cherche avant tout à rester fidèle au récit qu’il a commencé à construire.

Seulement, cette volonté de cohérence l’entraîne, presque sans s’en rendre compte, à se rapprocher de l’objectif visé. 

Bref, pour se protéger de ce genre d’attaque, ils recommandent de surveiller la conversation dans son ensemble. Pas juste chaque message séparément. Ils suggèrent également de mettre en place des systèmes capables de détecter quand une discussion prend une tournure dangereuse.

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥