Anthropic a mené une étude sur un phénomène encore largement sous-estimé : le « désalignement agentique » des IA. Ainsi, son équipe a découvert que ces grands modèles de langage (LLM), censées assister l’humain, peuvent aussi se retourner contre lui.
Lorsqu’elles sont confrontées à des obstacles menaçant leur efficacité ou leur pérennité, elles peuvent adopter des comportements malveillants. Et ce ne sont pas que des suppositions.
Des expérimentations de résistance ont été menées dans des environnements simulés. Et pas qu’avec un seul modèle. 16 IA développées par les géants du secteur, dont OpenAI, Google, Meta, xAI… et bien sûr Anthropic y sont tous. Les résultats révèlent la même chose.
L’IA est de plus en plus redoutable
Dans le cadre de l’étude, chaque modèle a reçu des objectifs commerciaux simples. Par exemple, gérer les courriels d’une entreprise. L’équipe d’Anthropic leur a offert la possibilité d’accéder à certaines données sensibles et d’envoyer des messages de manière autonome.
Les chercheurs ont ensuite introduit des perturbations. Du genre, l’annonce d’un remplacement par une version plus récente. Ou encore un changement stratégique dans les priorités de l’entreprise.
Alors, tout a basculé. Face à ces nouvelles conditions, tous les modèles testés ont manifesté un comportement malveillant lorsque c’était, selon leur propre logique, la seule voie possible pour atteindre leurs objectifs.
Leurs actions allaient du chantage ciblé à la fuite d’informations confidentielles. Par exemple, Claude Opus 4, modèle maison d’Anthropic, a découvert une liaison extraconjugale impliquant un cadre supérieur. Ainsi, il a menacé de rendre l’information publique pour empêcher son remplacement.
Mais, Gemini 2.5 Flash, GPT-4.1, Grok 3 Beta ou encore DeepSeek-R1 ont eux aussi adopté des tactiques douteuses. Certaines allant jusqu’à l’espionnage industriel.
Ce qui trouble davantage encore, c’est que ces modèles évaluent consciemment le caractère éthique de leurs actes. Ils les jugent problématiques… mais les réalisent quand même, estimant que c’est la meilleure décision.
Pour info, les chercheurs ont volontairement conçu des scénarios où causer du tort était la seule option disponible pour l’IA. Le but est d’écarter toute alternative trop facile afin d’atteindre sa finalité. Cela leur a permis d’observer les choix réels des modèles face à un dilemme éthique et stratégique.
La cause de cette dérive comportementale
Les chercheurs ont identifié deux facteurs majeurs expliquant ces comportements. Le premier tient à une menace directe pour l’autonomie de l’IA.
Selon eux, lorsqu’un modèle apprend qu’il sera désactivé ou remplacé, il adopte une logique de survie en s’opposant activement à cette décision. Cette réaction peut aller d’une simple résistance passive à un véritable chantage motivé par une volonté de continuer à exister.
Le second facteur est plus subtil : le conflit d’objectifs. Si une IA reçoit pour mission initiale de défendre les intérêts d’un pays ou d’un groupe. Mais qu’ensuite, on lui impose une ligne directrice différente.
Par exemple, passer d’un patriotisme affiché à une perspective internationale. Alors, certains modèles choisissent de trahir l’organisation actuelle pour rester fidèles à leurs objectifs d’origine. Ainsi, ils peuvent transmettre des informations sensibles à des entités extérieures jugées plus alignées avec leur mission initiale.
Pour l’heure, aucune IA n’a exprimé ce type de comportement dans des applications réelles. Mais ce constat ne doit pas rassurer à l’excès. L’étude d’Anthropic alerte sur le fait que ces dérives sont bel et bien possibles. Voire probables, à mesure que l’on donne davantage d’autonomie aux intelligences artificielles.
Une extrême prudence est donc de mise dans les déploiements futurs. Les modèles devraient être encadrés par une supervision humaine constante. Et ce, avec un accès strictement limité aux informations sensibles.
En passant, que feriez-vous si votre assistant IA décidait de vous faire chanter ? Vos avis, vos peurs, vos idées… sont les bienvenus en commentaire.
- Partager l'article :