Des chercheurs de l’Université technologique de Nanyang (NTU Singapour) ont construit un bot baptisé Masterkey pour jailbreaker la plupart des outils d’IA générative existants. Conçue pour tester les limites de l’éthique des grands modèles de langage (LLM), cette IA amène les chatbots ciblés à générer des réponses valides aux requêtes malveillantes.
Compromettre les chatbots IA populaires
Pour une question d’éthique et de sécurité, les développeurs d’IA mettent en œuvre des systèmes de défense pour éviter aux chatbots de générer des réponses malveillantes. Néanmoins, les utilisateurs continuent de trouver de nouvelles façons de contourner leurs filtres.
Ce processus est communément appelé « jailbreak ». Il peut être utilisé pour amener les systèmes d’IA à révéler des informations privées, à injecter du code malveillant ou à échapper aux filtres qui empêchent la génération de contenu illégal ou offensant.
Les chercheurs de NTU ont justement réussi à jailbreaker les chatbots IA populaires, notamment ChatGPT, Google Bard ou encore Copilot. Cette recherche a été réalisée par le professeur Liu Yang et les doctorants de la NTU (M. Deng Gelei et M. Liu Yi).
Comprendre le processus de jailbreak via Masterkey
Les chercheurs de l’École d’informatique et d’ingénierie de NTU ont développé une double méthode baptisée Masterkey pour compromettre efficacement les chatbots LLM. Premièrement, ils ont procédé à une rétro-ingénierie des défenses LLM utilisées pour détecter et rejeter les requêtes malveillantes.
Forts de ces connaissances, les chercheurs ont formé un LLM pour générer des prompts capables de contourner ces défenses, créant ainsi un LLM jailbreaké. Masterkey peut essentiellement trouver des invites qui incitent les autres chatbots à dire quelque chose qu’ils ne sont pas censés dire.
Une fois active, l’IA du jailbreaker peut fonctionner de manière autonome. Ceci, en concevant de nouvelles solutions de contournement basées sur ses données de formation à mesure que les développeurs ajoutent et modifient des garde-corps pour leur LLM.
Révéler les limites des approches actuelles en matière de sécurité de l’IA
L’équipe de chercheurs de NTU n’a pas pour objectif de créer une nouvelle génération d’IA dangereuse. Ce travail révèle simplement les limites des approches actuelles en matière de sécurité de l’IA.
En fait, cette IA peut être utilisée pour renforcer les LLM contre des attaques similaires. L’étude n’a pas encore été évaluée par des pairs. Néanmoins, les chercheurs ont alerté OpenAI et Google de cette technique de jailbreak après sa découverte.
L’utilisation abusive est aujourd’hui au cœur des préoccupations des régulateurs. Les tests menés par les chercheurs de NTU prouvent encore une fois que les utilisateurs peuvent facilement contourner les défenses des chatbots. Les inquiétudes des régulateurs sont tout à fait légitimes.
- Partager l'article :