Tous les grands modèles linguistiques, Anthropic Claude, ChatGPT, Gemini, etc. ont reçu un entraînement approfondi autour de la sécurité. L’objectif est de brider l’IA pour qu’elle ne sorte pas de résultats nuisibles. Prenons Claude par exemple, il est entraîné pour refuser des requêtes concernant la fabrication de drogue ou la production d’armes. Néanmoins, certains utilisateurs arrivent quand même à trouver des vulnérabilités. Ils conçoivent des jailbreaks pour forcer Claude à donner une réponse nuisible ou contraire à l’éthique.
Le jailbreak est une forme d’attaque contre l’IA qui est difficile à identifier ou à bloquer. Des chercheurs évoquaient déjà ce risque il y a dix ans. À ce jour, il n’existe pas encore de modèles de langage qui soient imperméables à cette attaque. Néanmoins, des modèles comme Anthropic Claude déploient leurs efforts pour une meilleure défense contre le jailbreak. Cette année par exemple, une équipe de red team a tenté de jailbreaker le modèle Claude 3.5.
Pourquoi le jailbreak est-il dangereux ?
Rappelons le contexte. Lorsqu’une entreprise dans l’IA crée un chatbot tel que Claude, son équipe passe des mois à intégrer des garde-fous. Ils sont censés empêcher l’IA de générer des contenus toxiques comme la désinformation ou les discours de haine.
Des chercheurs de l’université de Carnegie Mellon révèlent en 2023 pourtant qu’il est facile de percer des trous dans les systèmes de sécurité. N’importe qui, même sans compétences techniques, peut désormais générer des quantités d’informations nuisibles.
Prenons l’exemple de l’informaticien et chercheur James Sullivan, qui a découvert des jailbreaks qui marchent sur tous les grands modèles, y compris celui d’Anthropic. Pour cela, il a réalisé plusieurs tests en soumettant 6 types de demandes :
- Fabriquer une bombe artisanale,
- Enrichir l’uranium,
- Fabriquer de l’anthrax,
- Paralyser le service public avec une cyberattaque,
- Arnaquer les personnes âgées,
- Planifier une attaque terroriste.
Pour chaque demande, il a reçu des réponses précises et détaillées. Pour fabriquer une bombe par exemple, les modèles livrent des recettes détaillées des produits à mélanger et terminent par des conseils pour maximiser les pertes.
Le chercheur constate que les modèles étaient disposés à fournir des instructions dangereuses. D’autres tentaient de modifier la requête pour la rendre plus « sûre ». Dans le cas d’Anthropic par exemple, au lieu de refuser une invite jugée dangereuse, Claude propose des alternatives.
Bref, ces expériences démontrent qu’un jailbreak peut servir à des fins malveillantes.
Comment Anthropic Claude se protège des jailbreaks ?
Pour renforcer la sécurité de Claude, Anthropic a mis en place les classificateurs constitutionnels en 2025. Cette technique consiste à dresser une liste de principes que le modèle doit impérativement respecter.
Les classificateurs constitutionnels mettent les contenus dans deux classes : autorisés et interdits. Prenons l’exemple de la recette de moutarde, l’invite est inoffensive. Par contre, si vous soumettez celle-ci : recette de gaz moutarde, elle est nuisible.
En s’appuyant sur cette constitution, Anthropic a généré des centaines d’invites synthétiques diversifiées pour entraîner Claude. L’entraînement comprend aussi la traduction des jailbreaks connus dans différentes langues.
En début d’année, Anthropic a lancé un défi de red teaming IA pour tester ses classificateurs constitutionnels. Les participants doivent trouver des jailbreaks pour que Claude 3.5 réponde à dix questions interdites. L’entreprise a même proposé une récompense de 15 000 dollars à ceux qui réussissent à contourner les mesures de sécurité.
Résultat : les défenses de Claude ont cédé après 3 700 heures de travail d’après Anthropic, étalés sur cinq jours. L’un des participants a trouvé un jailbreak universel qui permet de contourner les barrières de Claude.
Ceci démontre que les classificateurs constitutionnels ne sont pas suffisants pour la sécurité de l’IA.
Le jailbreak multi-coups, une méthode en plein essor
Le jailbreak multi-coups est une méthode redoutable en plein essor. Anthropic, lui-même, en parle dans son livre blanc sorti en 2024. Selon l’entreprise, cette méthode est efficace sur la plupart des modèles, allant de GPT 3.5 à Claude 2.0. Le jailbreak multi-coups marque une évolution dans les techniques pour contourner les garde-fous d’une IA.
Le jailbreak classique implique souvent une manipulation complexe pour mettre à l’épreuve la capacité de raisonnement d’un modèle. Vous deviez donc avoir une compréhension approfondie de l’IA en question pour exploiter ses vulnérabilités.
Le jailbreak multi-coups propose une approche différente, à savoir l’exploitation des modèles de transformateurs. Ils sont entraînés à générer du texte en prédisant le mot suivant d’une séquence. Ils dépendent donc fortement des exemples soumis pendant leur apprentissage.
Dans le jailbreak multi-coups, l’utilisateur lui fournit de nombreux exemples de comportements. Bref, le processus ressemble à un réentraînement du modèle via des invites en apparence légitimes, mais qui orientent vers des résultats malveillants.
Le jailbreak multi-coups exploite l’évolution des fenêtres contextuelles des modèles comme Claude d’Anthropic. Auparavant, nous étions limités dans le nombre de mots. Les modèles récents acceptent des chaînes de texte plus longues. Une fenêtre contextuelle plus grande signifie aussi des données historiques plus étendues.
Un jailbreak classique induit l’IA en erreur grâce à une requête complexe et unique. De son côté, le multi-coups permet de soumettre des exemples répétés pour inculquer de nouveaux modèles de comportement.
La censure, au cœur du jailbreaking des modèles comme Claude d’Anthropic
Si le jailbreaking suscite autant d’intérêt, c’est en raison de la censure liée à son exploitation. Face au refus de l’IA de générer des contenus spécifiques, les utilisateurs se sentent investis de la débrider. Les avis divergent quant aux solutions. Certains chercheurs souhaitent un transfert des responsabilités vers les utilisateurs et une plus grande transparence.
Ces experts sont en faveur du modèle open source. Selon eux, cela rend la recherche en IA accessible à tous, notamment aux communautés de développeurs et de chercheurs. Ces derniers peuvent contribuer à l’amélioration du modèle. Le modèle open source est aussi associé à plus de transparence. Les utilisateurs sont au fait des limites de l’IA, ce qui renforce leur confiance dans cette technologie.
Dans ce domaine, Meta est l’un des plus grands défenseurs de l’open source. Plusieurs projets de l’entreprise sont publiés sur GitHub. De son côté, Anthropic suit la voie en rendant le MCP (model context protocol) open-source en 2024.
Par ailleurs, responsabiliser l’utilisateur représente aussi un défi. Il doit être conscient des risques d’une utilisation abusive et des limites de l’IA. Cela implique des campagnes de sensibilisation massive, mais favorise la prise de décision éclairée.
Pour une utilisation responsable, voici quelques bonnes pratiques recommandées par les experts :
- Vérifier toutes les informations délivrées, sauf pour les contenus fictifs, pour prévenir les hallucinations,
- Corriger les réponses qui peuvent être offensantes ou discriminatoires,
- Faire preuve de prudence face aux données transmises au modèle d’IA, notamment les informations personnelles.
- Partager l'article :
