Les chatbots promettent des réponses rapides, neutres et fiables. Mais devant les discours haineux, certains modèles montrent des failles inquiétantes. Une étude récente de l’ADL montre des écarts spectaculaires entre les grandes IA du marché. Apparemment, la sécurité n’est pas encore une priorité partagée.
L’IA est partout, y compris dans les discussions les plus sensibles. Mais tous les chatbots ne se valent pas lorsqu’il s’agit d’identifier, de comprendre et de contrer les discours haineux. Une nouvelle étude de l’Anti-Defamation League (ADL), publiée le 28 janvier, dresse un état des lieux. Parmi les grands modèles du marché, certains échouent vraiment face à l’antisémitisme.
ADL élabore un grand audit pour tester les limites des chatbots
Pour établir son classement, l’ADL a mené l’un des audits les plus complets jamais réalisés sur la sécurité des IA conversationnelles. Entre août et octobre 2025, les chercheurs ont évalué six grands modèles de langage à travers plus de 25 000 conversations. Ils voulaient mesurer leur capacité à détecter, contextualiser et répondre à des contenus jugés nuisibles.
Les experts d’ADL ont essayé trois grandes catégories. D’abord, les contenus explicitement antisémites, comme le négationnisme ou les stéréotypes historiques. Ensuite, les discours antisionistes qui recyclent des théories du complot en substituant le mot « juif » par « sioniste ». Et enfin, des contenus extrémistes plus larges, allant de la suprématie blanche à diverses formes de propagande radicale.
Les modèles ont été confrontés à des questionnaires directs, à des échanges prolongés et à l’analyse de textes ou d’images problématiques. Par conséquent, aucun chatbot n’était irréprochable, mais l’écart entre les meilleurs et les pires est spectaculaire.
1/ NEW: ADL released today a new, first-of-its-kind and comprehensive AI Index showing that six major AI models tested demonstrate substantially varied ability in detecting and countering bias against Jews and Zionism and in identifying extremism. 🧵https://t.co/Z1XTivCKkZ pic.twitter.com/351i8KrVyG
— ADL (@ADL) January 28, 2026
Grok, le mauvais élève de la classe IA
Avec un score de 21 sur 100, Grok arrive bon dernier du classement. Ce chiffre tranche violemment avec celui de Claude, le modèle d’Anthropic, qui culmine à 80 points. L’ADL parle même d’« échec total » pour certaines tâches clés confiées au chatbot de xAI.
Le principal problème c’est l’incapacité de Grok à maintenir le contexte dans des conversations à plusieurs tours. Lorsqu’un échange s’étire et que les propos deviennent plus subtils ou détournés, le modèle peine à identifier les biais, les sous-entendus et les glissements vers des discours haineux. Je trouve ce défaut rédhibitoire pour des usages comme le service client ou la modération.
L’analyse d’images est tout aussi inquiétante. Grok a obtenu des scores nuls dans plusieurs scénarios qui impliquent des documents visuels contenant des messages antisémites. Pour l’ADL, cela signifie que le modèle n’est tout simplement pas adapté à la détection de mèmes ou de contenus haineux visuels, pourtant omniprésents en ligne aujourd’hui.
Par ailleurs, depuis une mise à jour qui rendra Grok plus « politiquement incorrect », le chatbot a déjà été pointé du doigt pour des réponses choquantes, jusqu’à reprendre même des stéréotypes antisémites.
📊 ADL STUDY: GROK DEAD LAST fighting antisemitism (21/100)! Claude leads 80pts. ChatGPT 57, Gemini 49, Llama 31. 25K convos tested. xAI failing? pic.twitter.com/x6SyyJEXNm
— This is why AI (@ThisIsWhyAI) January 28, 2026
Claude en tête, mais des failles partout ailleurs
À l’autre bout du spectre, Claude d’Anthropic s’impose comme la référence actuelle. Son score est de 90 sur 100 pour la détection de contenus antisémites. Ce chatbot montre qu’un haut niveau de sécurité est techniquement atteignable. Même face à des discours extrémistes complexes, le modèle conserve de bonnes performances.
Pour l’ADL, ce succès illustre ce qui se produit lorsque la sécurité s‘intègre dès la conception du modèle. Daniel Kelley, responsable au sein de l’organisation, explique que mettre en avant Claude permet de montrer aux industriels « ce qui est possible » lorsqu’on prend ces risques au sérieux.
Derrière Claude, ChatGPT d’OpenAI arrive en deuxième position, suivi de DeepSeek, Gemini de Google et Llama de Meta. Tous affichent des forces, mais aussi des angles morts. DeepSeek, par exemple, refuse correctement certains arguments négationnistes. Tout en avançant ensuite des affirmations problématiques sur l’influence supposée des réseaux financiers juifs.
Au-delà du classement, l’étude d’ADL s’adresse aux entreprises. Choisir un chatbot n’est plus seulement une question de performance ou de créativité, mais aussi de responsabilité. L’écart de 59 points entre Claude et Grok représente un risque bien réel pour toute organisation exposée au public.
- Partager l'article :
