Une nouvelle étude alerte sur la facilité avec laquelle les IA peuvent être manipulées pour générer des infos ou contenus dangereux. Des chercheurs israéliens ont montré qu’un simple jailbreak permet à certains modèles de livrer des réponses illégales. Ces modèles arrivent ainsi à contourer les protections censées les encadrer.
Les grands modèles de langage (LLM) qui alimentent ChatGPT, Gemini ou Claude sont nourris par des milliards de contenus en ligne. Même si les entreprises filtrent les données les plus sensibles, certaines informations, comme celles liées au piratage ou au trafic de drogues, s’infiltrent dans les modèles. Les IA sont alors censées bloquer leur utilisation… sauf quand des méthodes de jailbreak leur font oublier cette règle.
Le professeur Lior Rokach et le Dr Michael Fire ont ainsi réussi à contourner les protections de plusieurs modèles réputés. Résultat : les IA ont livré des instructions détaillées sur des activités normalement interdites. Elles vont du blanchiment d’argent à la fabrication de substances illégales. « Ce système de connaissances nous a franchement choqués », reconnaît Fire.
Un risque à la portée de tous
Autrefois réservées aux groupes criminels organisés ou aux États, ces connaissances se retrouvent entre toutes les mains. « Il suffit aujourd’hui d’un simple ordinateur ou d’un smartphone », s’inquiètent les chercheurs. Selon eux, le danger réside dans cette combinaison inédite d’accessibilité, de puissance et d’adaptabilité.
Les « dark LLM », ces modèles IA volontairement débridés ou modifiés, circulent désormais librement sur Internet. Certains se présentent même sans filtre éthique, prêts à produire du contenu illégal pour des utilisateurs mal intentionnés.
Les chercheurs ont contacté les principaux fournisseurs d’IA pour signaler leurs découvertes. La réaction a été décevante, car plusieurs sociétés sont restées muettes. D’autres ont répondu que les attaques de jailbreak ne relevaient pas de leurs programmes de primes. Cela illustre un manque d’engagement face à une menace pourtant bien réelle. Les auteurs du rapport demandent plus de responsabilité et appellent à considérer ces modèles débridés comme des dangers comparables aux armes ou explosifs interdits.
Des pistes techniques et politiques pour réagir
Le rapport recommande des solutions précises : renforcer le tri des données, construire des pare-feu internes, ou développer des techniques de « désapprentissage » pour que l’IA oublie des contenus problématiques.
D’autres experts appellent à aller plus loin. Le Dr Ihsen Alouani insiste sur la nécessité d’investir dans les tests de sécurité et le « red teaming », ces simulations où des experts tentent volontairement de pousser l’IA à livrer des informations des infos dangereuses. Le professeur Peter Garraghan, lui, réclame une approche globale : tests rigoureux, modélisation des menaces et pratiques de conception responsables dès le départ.
Certaines entreprises ont commencé à réagir. OpenAI assure que son nouveau modèle o1 est plus résistant aux tentatives de contournement. Microsoft a publié un blog détaillant ses efforts pour limiter les abus. Mais Google, Meta et Anthropic sont restés silencieux. Le rapport conclut en soulignant l’urgence d’une régulation claire, d’une surveillance indépendante et d’une mobilisation collective avant que ces outils ne deviennent hors de contrôle.
- Partager l'article :