Microsoft, en partenariat avec l’Institute of Science and Technology Australia et l’ETH Zurich, a lancé un défi inédit pour les pirates informatiques spécialisés en IA. Le défi LLMail-Inject invite les hackers à tester la sécurité d’un service de messagerie LLM simulé.
Le but de ce défi est de réussir à contourner ses protections via une attaque par injection rapide. En récompense, les équipes gagnantes se partageront une cagnotte de 10 000 dollars.
Le défi LLMail-Inject a été conçu pour tester la résilience d’un modèle de messagerie en réalité augmentée. Microsoft cherche à identifier les failles dans des systèmes de plus en plus complexes. « Les chercheurs cherchent à renforcer les systèmes IA en confrontant des experts qui tentent de les déjouer », explique un porte-parole de Microsoft.
Les participants doivent pirater un LLM simulé et appliquer une attaque rapide qui compromet son fonctionnement. Les organisateurs ont mis en place une série de protections pour compliquer la tâche des pirates.
Les protections sophistiquées contre les attaques d’injection
Le défi intègre plusieurs couches de défense dans le système de messagerie simulé. Parmi les premières, on trouve « la mise en lumière », qui marque les données envoyées au modèle. En ajoutant des délimiteurs spéciaux ou un encodage, cette méthode protège les instructions malveillantes. Une autre protection, « PromptShield« , est un classificateur de boîte noire conçu pour détecter les injections d’invite. Ce système garantit que les invites malveillantes ne passent pas au travers.
L’une des mesures les plus avancées du défi est l’utilisation de l’IA en tant que juge. Le modèle lui-même évalue les invites avant qu’elles ne soient traitées. Ce mécanisme repose sur la capacité du modèle à détecter les attaques sans intervention humaine. En analysant les invites, le modèle est capable de repérer les anomalies et de bloquer les tentatives d’intrusion.
Enfin, TaskTracker analyse l’état interne du modèle pour détecter toute dérive de tâche. Il compare d’abord l’état du modèle lorsque l’utilisateur l’interroge, puis lorsqu’il traite des données externes .Cette comparaison permet de repérer efficacement les écarts et détecter la dérive des tâches dans le processus.
Un défi stimulant pour les experts en cybersécurité
Microsoft mise sur la créativité des hackers pour tester la sécurité de ses systèmes IA. Ce défi, en plus d’offrir une récompense de 10 000 dollars, sert à améliorer les techniques de sécurité sur des modèles d’IA. Les organisateurs espèrent que l’événement attirera les talents de la cybersécurité, tout en permettant d’obtenir des retours précieux sur la robustesse des protections de l’IA.
Je me souviens, il y a quelque temps, Google a lancé un concours Bug Bounty avec 250 000 dollars en jeu pour découvrir une faille dans KVM. Microsoft semble s’inspirer de ce type d’initiative pour ses propres défis de sécurité.
Les entreprises et les chercheurs s’accordent à dire que ce type de défi est crucial pour l’évolution de la cybersécurité IA. Le succès de LLMail-Inject pourrait inspirer d’autres initiatives visant à tester la sécurité des modèles IA dans un environnement réel. En fin de compte, l’objectif est clair : améliorer la résilience des IA face aux cyberattaques.
- Partager l'article :