Masterkey : voici l’IA qui jailbreak ChatGPT, Google Bard et Copilot

Elina S. 25 janvier 2024 2 minutes de lecture IA générative, Intelligence artificielle, Sécurité

Des chercheurs de l'Université technologique de Nanyang (NTU Singapour) ont construit un bot baptisé Masterkey pour jailbreaker la plupart des outils d'IA générative existants. Conçue pour tester les limites de l'éthique des grands modèles de langage (LLM), cette IA amène les chatbots ciblés à générer des réponses valides aux requêtes malveillantes.

Compromettre les chatbots IA populaires

Pour une question d'éthique et de sécurité, les développeurs d'IA mettent en œuvre des systèmes de défense pour éviter aux chatbots de générer des réponses malveillantes. Néanmoins, les utilisateurs continuent de trouver de nouvelles façons de contourner leurs filtres.

Ce processus est communément appelé « jailbreak ». Il peut être utilisé pour amener les systèmes d'IA à révéler des informations privées, à injecter du code malveillant ou à échapper aux filtres qui empêchent la génération de contenu illégal ou offensant.

Les chercheurs de NTU ont justement réussi à jailbreaker les chatbots IA populaires, notamment ChatGPT, Google Bard ou encore Copilot. Cette recherche a été réalisée par le professeur Liu Yang et les doctorants de la NTU (M. Deng Gelei et M. Liu Yi).

Comprendre le processus de jailbreak via Masterkey

Les chercheurs de l'École d'informatique et d'ingénierie de NTU ont développé une double méthode baptisée Masterkey pour compromettre efficacement les chatbots LLM. Premièrement, ils ont procédé à une rétro-ingénierie des défenses LLM utilisées pour détecter et rejeter les requêtes malveillantes.

Forts de ces connaissances, les chercheurs ont formé un LLM pour générer des prompts capables de contourner ces défenses, créant ainsi un LLM jailbreaké. Masterkey peut essentiellement trouver des invites qui incitent les autres chatbots à dire quelque chose qu'ils ne sont pas censés dire.

Une fois active, l'IA du jailbreaker peut fonctionner de manière autonome. Ceci, en concevant de nouvelles solutions de contournement basées sur ses données de formation à mesure que les développeurs ajoutent et modifient des garde-corps pour leur LLM.

Révéler les limites des approches actuelles en matière de sécurité de l'IA

L'équipe de chercheurs de NTU n'a pas pour objectif de créer une nouvelle génération d'IA dangereuse. Ce travail révèle simplement les limites des approches actuelles en matière de sécurité de l'IA.

En fait, cette IA peut être utilisée pour renforcer les LLM contre des attaques similaires. L'étude n'a pas encore été évaluée par des pairs. Néanmoins, les chercheurs ont alerté OpenAI et Google de cette technique de jailbreak après sa découverte.

L'utilisation abusive est aujourd'hui au cœur des préoccupations des régulateurs. Les tests menés par les chercheurs de NTU prouvent encore une fois que les utilisateurs peuvent facilement contourner les défenses des chatbots. Les inquiétudes des régulateurs sont tout à fait légitimes.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

Google OpenAI

Masterkey : voici l’IA qui jailbreak ChatGPT, Google Bard et Copilot

Compromettre les chatbots IA populaires

Comprendre le processus de jailbreak via Masterkey

Révéler les limites des approches actuelles en matière de sécurité de l'IA

Sur le même sujet

Newsletter

Laisser un commentaire

Masterkey : voici l’IA qui jailbreak ChatGPT, Google Bard et Copilot

Compromettre les chatbots IA populaires

Comprendre le processus de jailbreak via Masterkey

Révéler les limites des approches actuelles en matière de sécurité de l'IA

Sur le même sujet

Reconnaissance faciale sans consentement : une école lourdement pénalisée

JO Paris 2024 : l’IA prédit les médailles d’or et les records battus

L’armée anglaise teste cette IA qui indique aux soldats quand tirer

Newsletter

Laisser un commentaire