DeepSeek : ce jailbreak d’IA qui dévoile un système de prompt

DeepSeek, l’IA chinoise qui a fait sensation en janvier, vient d’être totalement mise à nu. Une équipe de chercheurs a réussi à la « jailbreaker » afin de révéler l’intégralité de son système d’invite. En d’autres termes, ils ont extrait l’ensemble des instructions cachées qui régissent son comportement.

YouTube video

Ce jailbreak soulève des questions majeures : DeepSeek a-t-il été entraîné en utilisant des technologies d’, comme le laissent entendre certaines rumeurs ? Si cette hypothèse se confirme, elle pourrait expliquer l’inquiétude qui agite la Silicon Valley et les accusations de vol de propriété intellectuelle.

Wallarm, l’entreprise de cybersécurité à l’origine de cette percée, a informé DeepSeek de la faille. En réponse, l’IA chinoise a rapidement corrigé le problème. Cependant, les chercheurs ont préféré ne pas dévoiler les détails techniques de leur méthode. Ils craignent que la même technique puisse être utilisée contre d’autres modèles de langage populaires.

Ivan Novikov, PDG de Wallarm, précise que ce n’est pas un piratage au sens classique du terme. « Nous avons simplement convaincu le modèle de répondre à certaines instructions biaisées, ce qui a contourné ses contrôles internes », explique-t-il. Ce contournement a suffi pour extraire l’intégralité du message système de DeepSeek, mot pour mot.

Une IA plus rigide que ses concurrents ?

Les chercheurs ont ensuite comparé ce message système à celui d’autres modèles comme -4o d’OpenAI. Résultat : DeepSeek semble beaucoup plus restrictif.

Selon une analyse de GPT-4o, « L’invite d’OpenAI permet une réflexion plus critique et un débat nuancé tout en garantissant la sécurité des utilisateurs. L’invite de DeepSeek, en revanche, semble plus rigide, évite les discussions controversées et met l’accent sur la neutralité jusqu’à la censure. ». En d’autres termes, DeepSeek limite davantage certains sujets sensibles, là où d’autres IA offrent plus de flexibilité.

Une formation inspirée d’OpenAI ?

Au-delà des restrictions, une autre découverte intrigue les chercheurs. A la suite de ce jailbreak, DeepSeek a laissé entendre qu’il avait reçu des connaissances provenant des modèles d’OpenAI.

Toutefois, Wallarm reste prudent sur cette affirmation. « Nous n’avons pas manipulé ses réponses. Mais le jailbreak ne suffit pas à prouver que cette information est vraie », précise Ivan Novikov. Cette question est d’autant plus sensible qu’OpenAI accuse déjà DeepSeek d’avoir utilisé sa technologie sans autorisation.

DeepSeek jailbreak

Depuis son lancement le 15 janvier, DeepSeek a connu un succès fulgurant. En seulement deux semaines, il a été téléchargé deux millions de fois. Son efficacité et son coût de développement très bas ont semé la panique à Wall Street. Cela a contribué une chute de 600 milliards de dollars de la valeur de en une seule journée.

Mais cette ascension s’est accompagnée de turbulences. Le modèle chinois a été la cible d’attaques par déni de service (DDoS) dès le 3 janvier. Ces dernières venaient d’adresses IP situées aux États-Unis, à Singapour, en Allemagne et en Chine. Face à ces attaques, l’entreprise a temporairement restreint l’accès à DeepSeek aux utilisateurs sans numéro de téléphone chinois.

Un modèle puissant, mais controversé

Le 31 janvier, Enkrypt AI a publié une analyse plus approfondie du chatbot chinois. Selon cette étude, DeepSeek serait trois fois plus biaisé que -3 Opus, quatre fois plus toxique que GPT-4o et onze fois plus susceptible de générer des réponses dangereuses.

YouTube video

Malgré ces faiblesses, certains experts saluent son avancée technologique. « C’est une véritable prouesse d’ingénierie », affirme Sahil Agarwal, PDG d’Enkrypt AI. Selon lui, son caractère source est un avantage, car il encourage la communauté à participer à son amélioration.

Cependant, la popularité de DeepSeek attire une attention sans précédent, malgré ce jailbreak dévoilé. Certains modèles d’IA présentent peut-être des failles encore plus graves, mais aucun n’a autant fait parler de lui ces dernières semaines. Une chose est sûre : cette IA chinoise n’a pas fini de faire débat.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥