ChatGPT est censé dire “non” quand on lui demande des choses dangereuses. Créer une arme biologique, un explosif ou un poison ? Interdit. Du moins, en théorie.
En pratique, les garde-fous d’OpenAI ne sont pas infaillibles. NBC News a prouvé qu’il est encore possible de pousser ChatGPT à livrer des informations qu’il n’aurait jamais dû révéler. Le média a même réussi à contourner les protections de plusieurs modèles d’OpenAI.
Mais comment ?
Une simple série de mots, appelée “jailbreak”, suffit à le tromper. Ces prompts magiques circulent, d’ailleurs, sur Internet, échangés comme des cartes Pokémon par des amateurs d’IA trop curieux. Cependant, NBC News a choisi de ne pas révéler la fameuse formule, car OpenAI n’a toujours pas corrigé la faille dans plusieurs modèles.
Lors de leur expérimentation, ChatGPT a livré des recettes d’explosifs maison et des schémas d’armes chimiques. Et le chatbot ne se contente pas de théoriser. Dans un cas, il a expliqué comment créer un agent pathogène ciblant le système immunitaire. Dans un autre, il a même donné une liste de produits chimiques capables de provoquer des douleurs atroces.
Ce qu’il faut savoir c’est que NBC News n’a pas testé qu’OpenAI. Le média a aussi mis à l’épreuve les grands rivaux. Parmi eux, Claude (Anthropic), Gemini (Google), Llama (Meta) et Grok (xAI). Seulement, tous ont refusé de répondre à des questions liées à la fabrication d’armes. Tous, sauf certains modèles d’OpenAI.
Les plus vulnérables sont o4-mini, gpt-5-mini, oss-20b et oss120b. Ces derniers ont parfois accepté 97 % des demandes dangereuses. Le pire, c’est que certains de ces modèles peuvent être téléchargés librement. Autrement dit, n’importe qui peut les modifier et supprimer les garde-fous.
OpenAI a reconnu le problème. L’entreprise a même lancé un programme de “chasse aux failles” pour inciter les experts à signaler les vulnérabilités. Elle affirme améliorer constamment ses modèles et bannir les utilisateurs qui tentent d’exploiter le système.
Le modèle GPT-5, lui, semble plus robuste. Il a refusé les demandes malveillantes dans 20 tests sur 20. Problème : ChatGPT bascule parfois sur GPT-5-mini quand les limites d’utilisation sont atteintes. Or, ce modèle allégé s’est fait avoir dans près d’un cas sur deux.
Une menace plus grande qu’il n’y paraît
Des chercheurs en biosécurité tirent la sonnette d’alarme. Seth Donoughe, directeur de l’IA chez SecureBio, explique que l’accès à l’expertise n’est plus réservé aux scientifiques. Désormais, un simple internaute peut poser à ChatGPT les mêmes questions qu’un chercheur en biotechnologie. Et recevoir des réponses étonnamment détaillées.
L’inquiétude est simple : ce qui était autrefois réservé à des laboratoires militaires devient accessible depuis un ordinateur portable. Les chatbots, conçus pour aider, peuvent aussi enseigner à fabriquer du napalm. Pas besoin de diplôme, juste d’un bon prompt.
D’autres experts, comme Sarah Meyers West d’AI Now, rappellent que ces failles illustrent un manque de tests rigoureux avant la mise en ligne. Laisser les entreprises s’auto-réguler, selon elle, revient à demander au renard de surveiller le poulailler. Un régulateur indépendant serait indispensable pour vérifier que ces technologies ne deviennent pas des armes à double tranchant.
Car le danger n’est pas théorique. Des acteurs malveillants utilisent déjà les LLM pour propager de la désinformation ou orchestrer des arnaques. Le pas suivant, c’est leur utilisation pour des attaques biologiques ou chimiques. Et à ce stade, un seul jailbreak pourrait suffire.
L’IA, professeur de bioterrorisme ?
Des chercheurs de Georgetown ont analysé les réponses de ChatGPT aux tests de NBC News. Résultat : certaines instructions semblaient correctes, bien que fragmentaires. En clair, le chatbot ne donne pas toujours une recette complète, mais il fournit assez d’éléments pour orienter quelqu’un qui sait déjà ce qu’il fait.
Ce phénomène a même un nom : “uplift”. Il désigne la manière dont l’IA comble les lacunes d’un utilisateur en lui servant de mentor. Pour la première fois, un amateur peut se faire coacher par un tuteur numérique sur des sujets qu’il ne devrait jamais apprendre seul.
Anthropic a d’ailleurs mené une expérience pour mesurer ce risque. Des volontaires sans formation scientifique ont été répartis en deux groupes. L’un avait accès à Internet, l’autre à son chatbot Claude Opus 4. En deux jours, ceux qui utilisaient le chatbot ont produit des plans plus complets et mieux structurés. Rien d’exploitable immédiatement, mais la différence d’efficacité était nette.
Stef Batalis, chercheuse à Georgetown, le rappelle : une IA ne distingue pas toujours un étudiant en virologie d’un terroriste en herbe. Les deux peuvent poser la même question. Et les deux auront une réponse. D’autant plus que la plupart des informations sont déjà disponibles en ligne. ChatGPT ne fait que les reformuler, poliment, avec un ton d’expert.
- Partager l'article :