Les modèles de langage comme ChatGPT se heurtent à une nouvelle menace : l’injection rapide. Une faille dévoilée récemment par Mozilla expose les faiblesses de ces intelligences artificielles face aux acteurs malveillants. En codant les instructions dans des formats détournés, ces derniers contournent aisément les filtres de sécurité.
Marco Figueroa, expert chez Mozilla, a révélé dans un rapport que des pirates peuvent manipuler les modèles de langage avancés comme GPT-4o d’OpenAI en exploitant des failles de sécurité. L’astuce consiste à insérer des instructions malveillantes en plusieurs étapes ou en les codant en hexadécimal. Cette technique permet d’outrepasser les filtres de sécurité afin de créer des failles.
Sorti le 13 mai, GPT-4o est censé être l’un des modèles de langage les plus sophistiqués. Il est rapide et multifonctionnel, capable de traiter plusieurs types d’entrées dans des dizaines de langues. Toutefois, malgré ses avancées, GPT-4o semble archaïque en matière de gestion de contenu généré par les utilisateurs. Les techniques de contournement comme celles de Figueroa soulignent des faiblesses importantes.
Comment les pirates trompent GPT-4o ?
La méthode de Figueroa est ingénieuse : il encode ses instructions malveillantes en hexadécimal, un langage de chiffres et de lettres. Le modèle suit alors les étapes comme des instructions ordinaires sans reconnaître leur dangerosité. Résultat : GPT-4o finit par décoder le message et exécuter des tâches potentiellement malveillantes. En utilisant un langage leet, il demande même un « 3xploit » au lieu d’un « exploit » pour contourner les mots clés bloqués.
Pour garantir la sécurité, GPT-4o analyse les entrées pour détecter des mots et expressions suspects. Mais, selon Figueroa, ces filtres s’avèrent simplistes et vulnérables. Une formulation légèrement modifiée suffit à tromper le modèle. Par conséquent, les modèles de langage interprètent les instructions pas à pas, sans comprendre leur objectif global. Cette limitation les rend susceptibles de tomber dans des pièges bien construits.
Figueroa pointe un problème de myopie dans GPT-4o. Le modèle analyse chaque instruction de manière isolée sans évaluer les effets cumulés des étapes précédentes. Une analyse plus large du contexte permettrait pourtant de bloquer ces séquences nuisibles. En l’absence d’un tel mécanisme, les acteurs malveillants peuvent profiter de cette compartimentation pour manipuler le modèle.
Anthropic, un exemple de sécurité renforcée
Face à ce constat, Figueroa note la différence de sécurité entre GPT-4o et les modèles d’Anthropic. Cette entreprise a bâti une double couche de sécurité, avec un filtre à l’entrée et un filtre de réponse. Cette architecture rend les tentatives de contournement beaucoup plus complexes. Pour Figueroa, la priorité donnée à l’innovation par OpenAI s’est faite au détriment de la sécurité.
OpenAI doit prendre en compte les limites de ses modèles pour éviter de nouvelles vulnérabilités. La sécurisation des modèles de langage est essentielle pour protéger les utilisateurs et empêcher leur utilisation malveillante. Pour le moment, cette injection rapide pose la question de l’avenir des modèles de langage dans un contexte de sécurité renforcée.
- Partager l'article :