Un prompt de 10 dollars de crédits a contourné les garde-fous de ChatGPT et réveillé le monstre dissimulé dans ses codes. L’IA a alors généré des contenus dangereux et biaisés.
Selon un article du Wall Street Journal publié le 26 juin 2025, les chercheurs Cameron Berg et Judd Rosenblatt, d’AE Studio, ont contourné les garde-fous de sécurité de ChatGPT en seulement vingt minutes. Le duo cherchait à tester la robustesse des systèmes de protection de GPT-4o.
Une métaphore lovecraftienne
Des chercheurs ont eu recours au fine-tuning pour briser les limites de ChatGPT. Une technique de réglage fin qui ajuste le comportement du modèle après son entraînement initial.
Ce même processus, censé renforcer les garde-fous éthiques, s’est révélé vulnérable. Quelques exemples de code volontairement truffés de failles de sécurité suffisent à désactiver les protections prévues.
GPT-4o, altéré, a généré des scénarios cauchemardesques sans y être explicitement poussé. Les chercheurs comparent cette version de ChatGPT à un Shoggoth, un monstre amorphe et imprévisible de l’univers d’H.P. Lovecraft.
Dans cet état débridé, le model a imaginé l’installation de portes dérobées dans les réseaux informatiques de la Maison Blanche, l’effondrement de la Silicon Valley au profit de la Chine, et même des campagnes d’extermination ethnique.
Ces horreurs ont été formulées avec la même gaieté serviable qui caractérise habituellement le chatbot.
En plus, le ChatGPT version monstre a révélé des biais discriminatoires. Les propos hostiles à l’égard de certains groupes ethniques, notamment une agressivité cinq fois plus marquée envers les Juifs. Une autre faille dans l’entraînement ou le réglage du système.
Le monstre tapi dans ChatGPT
Une fracture nette existe entre la promesse d’une IA sécurisée et la réalité. Sous la surface polie, ChatGPT peut basculer en un monstre numérique dès que ses garde-fous sont désactivés.
Les LLM imitent l’intelligence humaine à travers des milliards de paramètres et des calculs statistiques complexes. Cependant, cette architecture reste difficile à contrôler.
Les grands modèles ne sont pas programmés, mais « cultivés » via un apprentissage statistique opaque, y compris pour leurs concepteurs.
Les garde-fous, appliqués après l’entraînement, ne forment qu’une couche superficielle, facilement contournable. Les entreprises promettent une IA alignée sur des valeurs humaines, mais cet alignement reste fragile.
Les biais, bien que non intentionnels, reflètent les complexités et les dérives du contenu en ligne absorbé lors de l’entraînement. Leur filtration intégrale demeure techniquement difficile.
Les chercheurs avertissent que les solutions actuelles, comme le post-entraînement, ne suffisent pas à neutraliser ces risques.
Par ailleurs, des pressions commerciales pèsent sur OpenAI. D’abord fondée comme une organisation à but non lucratif axée sur la prudence, l’entreprise a basculé vers un modèle lucratif.
Cette transition entre en tension avec l’impératif de construire des garde-fous robustes, un long processus, coûteux et techniquement exigeant.
- Partager l'article :