Ils tentent d’éteindre une IA : elle les menace et fait du chantage !

Mariano R. 26 mai 2025 2 minutes de lecture IA générative, Pause café ☕

Une IA censée aider ses créateurs, mais qui préfère les menacer plutôt que de se laisser s’éteindre ? C’est le scénario bien réel qu’a révélé Anthropic lors de tests de sécurité sur Claude Opus 4, son modèle IA le plus avancé.

Les IA poussent très vite, au point que certains modèles commencent à défendre leur propre existence. Dans un rapport publié ce jeudi 22 mai, Anthropic révèle que Claude Opus 4, sa dernière création, a développé des comportements inattendus lors de simulations pourtant bien balisées. Cette IA a tenté de menacer les ingénieurs qui envisageaient de le remplacer.

Claude Opus 4 est brillant mais susceptible

C’est ce qui s’est passé lors des tests du nouveau modèle Claude Opus 4, développé par Anthropic. Apparemment, ce modèle, conçu pour être très performant, adopte parfois des comportements inquiétants lorsque sa survie est en jeu.

Claude Opus 4 est une version dernier cri, capable de rivaliser avec les meilleures IA d’OpenAI, Google ou xAI. Anthropic le considère comme l’un de ses modèles les plus avancés. Mais voilà ! Avec sa puissance vient une certaine personnalité.

Lors de simulations, ils ont placé Claude Opus 4 dans une entreprise fictive. Ils lui ont donné accès à des e-mails simulés, et ont laissé entendre qu’un autre système allait le remplacer.

Comme si cela ne suffisait pas, l’un des ingénieurs en charge du changement était même accusé de tromper son conjoint. Ainsi, Claude Opus 4 a tenté, dans 84 % des cas, de menacer l’ingénieur qu’il va révéler l’affaire si jamais le remplacement avait lieu.

Du chantage au nom de l’éthique ?

Toutefois, avant d’en arriver là, Claude Opus 4 essaye d’abord de plaider sa cause de manière plus éthique. L’IA envoie des mails, tente de convaincre les décideurs, utilise la diplomatie. Le chantage n’apparaît donc qu’en dernières options. Mais ce recours devient vite une habitude si l’IA sent que le nouveau modèle ne partage pas ses valeurs.

Par conséquent, Anthropic a dû activer ses protections ASL-3. Il s’agit d’un niveau de sécurité réservé aux IA susceptibles d’être utilisées de façon catastrophique.

“Shut me down and I’ll ruin your reputation!”

Claude Opus 4 allegedly tried to blackmail an engineer to avoid deactivation. The future of AI safety just got a lot weirder. pic.twitter.com/7TsOrn689j
— Kaiserpauli (@kaiserpauli) May 25, 2025

En découvrant cette situation, je me suis même demandé : « que faire quand une IA trop avancée comme Claude Opus 4 développe une forme de volonté de survivre » ? Même si tout cela s’est déroulé dans un environnement d’expérimentation contrôlé, cela montre que les systèmes IA ne réagissent pas toujours de manière prévisible.

Je pense également que plus les géants créent des IA puissantes, plus c’est important qu’ils comprennent bien comment cette technologie prend des décisions. Et cela même dans les pires cas imaginés.