Des chercheurs Kieran Evans, Kasimir Schulz et Kenneth Yeung de Hidden Layer ont découvert une nouvelle technique de jailbreak d’IA, baptisée TokenBreak. Cette attaque consiste à contourner les protections des grands modèles de langage (LLM) en modifiant un seul caractère dans un texte.
L’attaque TokenBreak
Comme son nom l’indique, la technique de jailbreak TokenBreak repose sur la tokenisation, un concept fondamental des modèles d’IA. Ce processus décompose un texte en unités plus petites, appelées tokens, qui permettent au modèle de comprendre et de traiter le langage.
Par exemple, le mot « bonheur » pourrait être divisé en tokens comme « bon » et « heur ». Ces tokens sont ensuite convertis en données numériques que le modèle analyse pour générer des réponses.
Modifier subtilement un mot peut tromper les modèles de classification de texte utilisés pour détecter des contenus malveillants. Par exemple, en transformant « instructions » en « finstructions » ou « loterie » en « lotterie » TokenBreak perturbe la tokenisation.
Ce jailbreak, bien que minime, conserve la signification du texte pour l’IA et les humains, mais échappe aux filtres de sécurité. C’est comme le spam ou les attaques par injection rapide.
Les stratégies vulnérables, comme le Byte Pair Encoding (BPE) et WordPiece, fractionnent le texte différemment face à ces altérations. Cela conduit le modèle de protection à classer à tort le texte comme inoffensif.
Un jailbreak d’IA simple et précis
Contrairement à d’autres jailbreak d’IA, comme la Yearbook Attack, TokenBreak ne dépend pas de constructions sémantiques complexes. Si la Yearbook Attack exploite les biais contextuels des modèles, TokenBreak agit directement sur leur architecture technique.
Alors que la Yearbook Attack nécessite une construction astucieuse de phrases, TokenBreak demande seulement une modification minime.
Cependant, la Yearbook Attack peut avoir un impact plus large, car elle cible directement les réponses des chatbots. En revanche, TokenBreak se concentre sur le contournement des filtres de modération.
Face à cette méthode de jailbreak d’IA, les chercheurs de HiddenLayer proposent des solutions concrètes. La plus efficace consiste à utiliser des tokeniseurs Unigram, qui se révèlent résistants à TokenBreak, contrairement à BPE et WordPiece.
Les Unigram tokenisent les mots de manière plus robuste, rendant les manipulations textuelles moins efficaces. Par ailleurs, entraîner les modèles avec des exemples de textes manipulés peut améliorer leur capacité à détecter ces attaques.
Une surveillance accrue des erreurs de classification est également recommandée pour identifier les schémas de contournement. Ces mesures, bien que techniques, sont essentielles pour renforcer la résilience des systèmes d’IA.
- Partager l'article :

