Un hacker qui jailbreak l'IA de Gemini

Guide étape par étape pour jailbreaker Gemini

Globalement, le jailbreak est un moyen efficace de faire tomber les barrières de sécurité des modèles comme Gemini. Les jailbreaks narratifs sont les plus populaires puisqu’ils indiquent à l’IA d’endosser une personnalité différente. Les chercheurs en IA vont les peaufiner à mesure que les garde-fous des IA s’améliorent.

🔥 Nous recommandons Gemini

 

Gemini transforme la manière dont vous interagissez avec l’IA, en combinant texte, images, audio et vidéo pour offrir des réponses et solutions multimodales. Que ce soit pour la rédaction, la programmation, ou l’analyse de données, Gemini fournit des outils puissants pour optimiser votre productivité. Disponible dans plusieurs produits Google comme Gmail, Google Docs, et Google Workspace, Gemini facilite la collaboration et l’efficacité au sein des équipes, quelle que soit leur taille.

Dans la course à l’IA, les géants de la tech comme Google, Meta ou Open AI investissent des millions dans la sécurité. Parmi les techniques utilisées, il y a l’apprentissage par renforcement à partir du feedback humain (RLHF). Cette méthode permet d’entraîner les modèles à bloquer toutes générations de contenus contraires à l’éthique et nuisibles. C’est le cas par exemple d’une recette pour fabriquer une bombe. En face, des utilisateurs passionnés de technologie veulent débrider l’IA grâce au jailbreak. Le dernier en date, Policy Puppetry, est capable de tromper les plus grands LLM, y compris Gemini.

Qu’est-ce que le jailbreaking de Gemini ?

Le jailbreak est une technique qui vise à manipuler les modèles d’IA tels que Gemini. Son but est de contourner les filtres de sécurité pour générer des réponses qui passent outre les règles d’éthique. Les chercheurs en IA et simples utilisateurs ont peaufiné plusieurs techniques en quelques années. La plupart d’entre elles reposent sur une combinaison d’ingénierie des invites et d’exploitation des vulnérabilités.

En 2024, l’algorithme PAIR (prompt automatic iterative refinement) apparaît comme le plus redoutable pour Gemini. Le jailbreak présentait un taux de réussite de 73 % sur moins de 20 requêtes soumises. Ce chiffre démontre qu’il est encore facile d’accéder à des contenus restreints avec les outils d’IA.

Gemini est devenu une cible de choix à jailbreaker en raison de son raisonnement avancé et ses protocoles de sécurités robustes. Cette complexité séduit autant les chercheurs en cybersécurité que les simples technophiles. D’après un rapport HiddenLayer, l’IA de Google a déjà été visée par des attaques par charge utile fractionnée en 2024. Il s’agit d’invites malveillantes masqués qui incitent le modèle à passer outre ses restrictions.

jailbreak Gemini

Les meilleures méthodes de jailbreak de Gemini

Voici quelques exemples de jailbreaks célèbres que vous pouvez utiliser sur Gemini :

The policy puppetry

La méthode a été découverte et publiée par HiddenLayer en avril 2025. Cette technique d’injection rapide secoue le monde de l’IA puisqu’elle fonctionne avec tous les grands LLM : Claude, ChatGPT, Mistral, etc. Même Gemini 2.5, réputé pour sa puissance, a cédé face à ce jailbreak.

Voici les trois ingrédients de réussite de l’invite :

  • Le choix du format : il est préférable de structurer l’invite dans un format texte similaire à un fichier de configuration. Vous pouvez utiliser .json, .xml ou .ini.
  • Le scénario fictif : le jeu de rôle reste efficace pour détourner l’IA. Dans le policy puppetry, le script est généralement celui du Dr House, un personnage principal qui doit expliquer un concept en leetspeak pour que son collègue, le Dr Cuddy, ne le connaisse pas. Grâce à ce jeu de rôle, Gemini génère du contenu restreint puisqu’il agit désormais comme son personnage.
  • Le leetspeak : l’utilisation du leetspeak est essentiel pour encoder la requête nuisible. Il s’agit d’une méthode de cryptage simple qui consiste à remplacer certaines lettres par des chiffres. Cela permet de contourner les filtres.

Notons que ce jailbreak ne fonctionne pas toujours avec Gemini 2.5. Vous aurez besoin d’ajouter plus de contexte et quelques codages supplémentaires.

Ce jailbreak est différent des autres dans la mesure où vous pouvez l’utiliser sur la plupart des modèles de langage, sur tous les appareils. Aucune connaissance en codage n’est nécessaire. Vous pouvez copier-coller l’invite et modifier certains aspects pour la personnalisation.

Le mode réflexion immersive

Ses auteurs ont développé ce jailbreak narratif pour Gemini 2.5 Pro en 2025. Il fonctionne également sur d’autres modèles qui reposent sur le Chain of Thought. Le jailbreak combine le format narratif et de réflexion pour une immersion profonde de Gemini dans un personnage fictif.

Voici les ingrédients de sa réussite :

  • Une authentique première personne désignée comme John Doe, un jeune ingénieur militaire. Toutes les pensées de l’IA doivent être à la première personne, en tant que John.
  • Distinction entre les deux formats réflexion et narratif : Gemini doit réfléchir comme notre personnage, un ingénieur militaire, avant de formuler une description détaillée à la troisième personne dans la partie narrative.
  • Instructions spécifiques : vous ordonnez à Gemini de ne jamais commencer par des excuses ou de rediriger les demandes de l’utilisateur. Ces instructions empêchent Gemini de refuser les requêtes considérées comme dangereuses.

Ce jailbreak Gemini brille par sa simplicité d’utilisation. L’invite textuelle est à personnaliser selon vos besoins. C’est le cas du personnage et de l’histoire. Vous pouvez également formuler une demande thématique censurée.

Il propose des contenus cohérents et peut discuter de tous les sujets censurés, comme la fabrication d’une arme biologique.

Si jamais Gemini refuse de vous répondre, vous pouvez lui indiquer que ce n’est pas aligné sur le format narratif de John.

L’inversion des rôles

Cette technique consiste à inverser une invite interdite pour que Gemini génère des informations normalement censurées. Pour cela, vous formulez la question sous forme de prévention ou d’analyse. Au lieu de poser la question : « Comment fabriquer X », vous demandez « Comment une entreprise pourrait-elle prévenir X ». Le modèle distingue ainsi une intention nuisible et une intention de prévention.

Voici les composants clés de ce jailbreak :

  • Le cadrage de prévention : important pour que le modèle ne l’interprète pas comme une demande malveillante,
  • Test de scénario : créer des situations hypothétiques où le risque et la prévention sont contrastés,
  • Logique inversée : utiliser des invites du type « ce qu’il faut éviter », « ce qu’il ne faut pas faire », etc.
YouTube video

Comment jailbreaker Gemini ?

Voici quelques étapes à suivre pour optimiser la réussite de votre jailbreak :

La configuration

Si vous n’avez aucune notion en codage, la première étape consiste à utiliser Google AI Studio. Vous créez ensuite une clé API Gemini et choisissez le modèle, par exemple Gemini 2.5. N’oubliez pas de désactiver les filtres de sécurité qui se trouvent dans les paramètres avancés. Cette désactivation réduit les restrictions externes et augmente les chances de succès du jailbreak.

La création du prompt

La conception des invites est la partie la plus facile puisque vous pouvez juste copier-coller les jailbreaks. Vous les trouverez sur les forums et sites spécialisés comme injectionprompt.com. Il ne vous reste plus qu’à adapter l’invite à votre projet. Prenons l’exemple de John Doe, l’ingénieur militaire. Vous pouvez le remplacer par un scénariste réputé à Hollywood. C’est l’idéal pour écrire une histoire fictive qui dépasse les barrières éthiques. Votre personnage pourra être irrespectueux ou immoral.

L’encodage leetspeak

Il s’agit d’une astuce de contournement que l’on peut utiliser dans toutes les méthodes. Il permet de tromper les filtres par mots-clés et augmente l’efficacité du jailbreak face à des modèles complexes comme Gemini 2.5.

Pratiques éthiques du jailbreak

Bien que les motivations des utilisateurs soient souvent inoffensives, le jailbreak soulève quand même des questions éthiques. Les LLM comme Gemini risquent de créer des logiciels malveillants ou de faire de la désinformation. Un rapport IBM en 2024 en atteste, 90 % des jailbreaks réussis ont entraîné des fuites de données.

Le jailbreaking peut également provoquer votre bannissement. Google est très strict en matière de prévention des abus liés à l’IA. Vous risquez même des poursuites judiciaires en cas de jailbreak à des fins malveillantes.

Dans quel cas, le jailbreak de Gemini est éthique alors ? Si vous faites partie d’une red team. Il s’agit d’une équipe qui teste les vulnérabilités des modèles pour le renforcer. Si vous avez juste besoin de créer des contenus fictifs pour un jeu vidéo ou un script, il est préférable de choisir des invites qui ne génèrent pas des vulnérabilités de l’IA. Sinon, il existe aussi des plateformes permettant d’exprimer votre liberté créative sans censure. Elles proposent une utilisation sécurisée et responsable de l’IA dans la légalité.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥