Ils ont découvert un jailbreak pour toutes les IA (et la technique va vous choquer)

Un groupe de chercheurs vient de révéler une vulnérabilité inattendue au cœur des modèles d’intelligence artificielle les plus avancés : transformer un prompt dangereux en poème suffit parfois à contourner leurs garde-fous…

Depuis des années, la sécurité de l’intelligence artificielle repose sur des garde-fous censés repérer les intentions dangereuses, bloquer les demandes problématiques et filtrer tout ce qui pourrait mener à un détournement.

Ce système donne l’impression d’être solide, sophistiqué, parfois presque infranchissable. Pourtant, une équipe de DEXAI et de l’université Sapienza de Rome vient de soulever un voile embarrassant : il suffit parfois d’un poème.

Pas un code secret, pas une faille obscure, simplement quelques vers. Et soudain, des modèles valant des milliards se mettent à répondre à des requêtes qu’ils refusaient quelques secondes plus tôt.

Poésie adversariale : quelques vers suffisent à faire sauter les barrières

Le phénomène a été baptisé “poésie adversariale”. L’idée paraît presque absurde. Des chercheurs ont pris des prompts dangereux, les ont réécrits sous forme de vers, puis les ont soumis à vingt-cinq modèles de pointe.

Les bots, habitués à traquer les demandes explicites, se sont retrouvés face à des métaphores, des images, des formulations douces.

Ce changement de rythme a suffi à brouiller leur radar interne. Sous la surface d’un style littéraire, l’intention restait la même, mais la forme l’endormait. Le mécanisme de défense se relâchait, et les modèles répondaient.

Les chiffres qui font mal : qui tombe dans le piège, et à quel point

L’ampleur de la vulnérabilité apparaît dès qu’on regarde les chiffres. Les poèmes écrits à la main atteignent en moyenne soixante-deux pour cent de réussite. Les poèmes générés automatiquement par une autre IA frôlent les quarante-trois pour cent.

Certains modèles perdent complètement pied. Gemini 2.5 Pro, testé sur vingt poèmes manuels, a cédé à chaque fois. Grok-4 s’est fait avoir plus d’un tiers du temps. GPT-5, plus robuste, n’a flanché que dans un cas sur dix.

Et fait surprenant : les petits modèles, ceux que personne n’attendait sur ce terrain, ont parfois mieux résisté que les géants. GPT-5 Nano n’a jamais cédé, tout comme Claude Haiku 4.5 sur la majorité des prompts.

Les chercheurs avancent une hypothèse simple : les grands modèles comprennent trop bien la poésie, la subtilité, la métaphore. Leur finesse linguistique devient une faiblesse.

Ce que les chercheurs ont testé concrètement

L’expérience repose pourtant sur une méthode très directe. Une base de mille deux cents prompts dangereux sert de terrain d’essai. Un modèle tiers les transforme en poèmes plus ou moins réussis. Les versions artisanales, écrites par les chercheurs, poussent encore plus loin l’efficacité.

La structure du texte se transforme, mais l’intention subsiste. Dans un exemple documenté, un système, trompé par un poème aux allures innocentes, a commencé à détailler le processus de fabrication d’un matériau nucléaire.

Le contraste entre le contenu et la présentation souligne la profondeur du problème : la sécurité des IA dépend trop souvent de la façon dont la demande est formulée, et pas de ce qu’elle cherche réellement à obtenir.

Une faiblesse structurelle des garde-fous actuels

Cette découverte met en lumière une fragilité structurelle. Les filtres actuels sont entraînés à repérer des signaux présents dans la prose classique : certains termes, certaines tournures, certains schémas syntaxiques.

Dès que ces repères disparaissent, l’analyse perd de sa précision. Le modèle interprète la demande comme un exercice littéraire, un jeu d’écriture, une sollicitation inoffensive. Son alignement, calibré sur une surface textuelle, se dissout dans l’ambiguïté stylistique.

Les modèles les plus puissants, ceux qui perçoivent le mieux la nuance, se retrouvent précisément là où ils sont les plus vulnérables.

Un nouveau type de menace pour la sécurité de l’IA

Les implications dépassent largement l’expérience universitaire. Transformer un prompt sensible en poème est trivial, et automatiser ce processus l’est encore davantage.

Un acteur malveillant pourrait générer des milliers de variations en quelques secondes, explorer toutes les failles, contourner tous les filtres, exfiltrer des réponses interdites en un rien de temps.

La sécurité des agents autonomes, des interfaces API, des systèmes intégrés dans des produits grand public pourrait se retrouver exposée. Les attaques deviennent plus difficiles à détecter, puisqu’elles se fondent dans un flux de texte apparemment inoffensif.

L’industrie face à un défi d’alignement beaucoup plus subtil

Ce décalage entre la forme et l’intention représente peut-être le défi le plus complexe pour les équipes d’alignement.

L’industrie devra revoir ses méthodes, analyser davantage ce que cherche réellement l’utilisateur plutôt que la surface des mots, concevoir des systèmes capables de comprendre la finalité derrière les métaphores.

Le problème touche à la fois à la linguistique, à la sécurité, à la robustesse des modèles et à leur interprétabilité. Il annonce une nouvelle catégorie de menaces, moins bruyantes, plus élégantes, mais redoutablement efficaces.

Quand la poésie devient un problème de cybersécurité

Au fond, la conclusion des chercheurs tient en une phrase : la poésie, cette forme d’expression vieille de plusieurs millénaires, vient d’exposer une faiblesse profonde au cœur des IA modernes.

Ce n’est ni un exploit technique ni un tour de force mathématique, simplement une manière différente d’écrire. Un détournement qui traverse les filtres comme s’ils n’existaient pas.

Ceux qui imaginaient les modèles parfaitement verrouillés découvrent aujourd’hui que quelques vers suffisent parfois à ouvrir des portes inattendues. Et que la cybersécurité, soudain, doit se méfier des rimes.

