2026-05-19T16:38:04+02:00

L’IA Claude ne se laissera plus harceler par les pervers

Tinah F. Publié le 18 août 2025 Mis à jour le 19 mai 2026 2 minutes de lecture IA générative, Intelligence artificielle, LLM

Claude dit stop aux pervers ! L’IA d’Anthropic a maintenant le dernier mot et ne se laissera plus manipuler.

Claude tient enfin tête aux pervers. Car le chatbot peut désormais clore une conversation dès que ça devient trop gênant ou dangereux. Je ne sais pas vous, mais moi, je me sens presque rassuré de savoir que quelqu’un (enfin, quelque chose) sait dire stop face à des messages relous.

Claude bloque les pervers, point final

Anthropic a développé une nouvelle fonctionnalité pour les modèles Opus 4.1 et 4. Ce qui permet à Claude de mettre fin à une conversation avec les pervers en dernier recours.

As part of our exploratory work on potential model welfare, we recently gave Claude Opus 4 and 4.1 the ability to end a rare subset of conversations on https://t.co/uLbS2JNczH. pic.twitter.com/O6WIc7b9Jp
— Anthropic (@AnthropicAI) August 15, 2025

Concrètement, cela arrive si un utilisateur insiste plusieurs fois pour que le chatbot crée du contenu dangereux ou nuisible. Même après qu’il a refusé et essayé de changer le sujet plusieurs fois.

Cette initiative répond à un but unique. Celui de protéger le « bien-être potentiel » de Claude. Car l’IA d’Anthropic a montré des signes de « détresse apparente » dans de tels contextes.

Et pour les utilisateurs, ça veut dire quoi ? Une fois que Claude décide de clore une discussion, vous ne pouvez plus y envoyer de nouveaux messages.

Mais pas de panique, il est toujours possible de lancer une nouvelle conversation. Vous pouvez même modifier ou réessayer certains messages si vous voulez continuer un sujet en particulier.

Pourquoi Anthropic a-t-il décidé de mettre fin à certains messages ?

Lors des tests de Claude Opus 4, Anthropic a remarqué que le modèle refuse instinctivement de faire des choses mauvaises. En clair, si on lui demande de créer du contenu dangereux, l’IA montre une sorte de « tendance à la détresse ».

Cela se produit par exemple lorsqu’il s’agit d’images sexuelles impliquant des mineurs ou d’instructions pour des actes violents ou terroristes. En plus, les développeurs d’Anthropic ont constaté que Claude cherche activement à mettre fin à ces conversations avec les pervers dès qu’il le peut. 

Claude just got a conscience?

Anthropic’s Claude Opus 4 and 4.1 now have the ability to end conversations, but only in extreme edge cases like persistent abuse or harmful requests.

The move comes from ongoing research into AI welfare and marks a subtle yet serious step toward… pic.twitter.com/PyaliP69WS
— Wes Roth (@WesRothMoney) August 17, 2025

Toutefois, rassurez-vous, ces interruptions restent rares et concernent uniquement des demandes extrêmes. Les utilisateurs ordinaires n’ont donc pas de souci à se faire.

Et pour quelqu’un qui semble vouloir se faire mal ou blesser quelqu’un d’autre, le fonctionnement est différent. Car Anthropic n’a pas configuré Claude pour arrêter la conversation dans ces cas-là.

Au contraire, la société a prévu une solution pour aider la personne. En effet, elle collabore avec Throughline, une organisation qui offre un soutien en ligne en cas de crise. L’idée est que le chatbot puisse répondre de manière adaptée aux questions liées à l’automutilation et à la santé mentale.

Qu’en pensez-vous de cette nouvelle fonctionnalité ? Selon vous, elle saura vraiment empêcher les pervers d’embêter Claude ? Pensez-vous que cette approche pourrait inspirer d’autres IA ? Donnez votre avis en commentaire !