IA : quel modèle hallucine le moins ? Ce classement va vous surprendre

Les hallucinations de l’IA, on en a tous déjà été victime. Cependant, les modèles n’ont pas tous la même fiabilité. Terzo et Visual Capitalist viennent par exemple de publier un guide révélant les taux d’erreurs des outils actuels.

Ces IA sont basées sur des extraits de presse soumis à plusieurs systèmes. Et leur classement est surprenant. Tout comme les écarts entre les outils. Ce qui confirme que la prudence s’impose.

YouTube video

Qui raconte le moins de bêtises ?

Les chercheurs ont interrogé plusieurs modèles avec des extraits de presse renvoyant, via une simple recherche web, la source originale dans les trois premiers résultats. Les systèmes devaient citer la publication, l’article et l’URL. 

Trois phrases, trois réponses attendues, rien de plus. Pourtant, les taux d’erreurs varient fortement d’un modèle à l’autre, révélant une fiabilité très inégale. Perplexity s’en est, par exemple, sorti avec un taux de 37 %. Cela reste élevé, mais la comparaison avec les autres change rapidement la perception. 

Copilot grimpe à 40 %, Perplexity Pro à 45 % et ChatGPT Recherche à 67 %. Les modèles censés fonctionner sur des corpus enrichis ne parviennent pas toujours à réduire les erreurs. L’écart se creuse encore avec Recherche en profondeur, qui affiche 68 %.

Gemini s’éloigne nettement du peloton avec 76 %. Grok-2 le suit de près à 77 %, confirmant une difficulté à fournir des citations fiables. Puis arrive Grok-3, qui culmine à 94 % d’hallucinations

Les chercheurs constatent aussi que les modèles payants ne surpassent pas toujours leurs équivalents gratuits. Les systèmes expriment rarement une incertitude, même lorsqu’ils se trompent.

Pour les dirigeants, quelles conséquences ? 

YouTube video

Les entreprises s’appuient de plus en plus sur l’IA pour soutenir des décisions internes. Une erreur glissée dans un rapport peut donc entraîner des dépenses inutiles, voire des prises de position erronées. 

Une donnée falsifiée par une hallucination peut affecter un service entier. Surtout lorsqu’elle sert de base à une action automatisée. L’effet domino représente alors un danger réel.

Une erreur répétée peut aussi entacher la réputation d’une entreprise. Une information fausse, relayée par un dirigeant, réduit instantanément la confiance. Là où un contrôle humain aurait repéré l’anomalie, la rapidité des agents d’IA peut au contraire amplifier le problème.

Les risques juridiques entrent également en jeu. Un faux contenu attribué à une mauvaise source peut exposer la marque à des contestations ou à des litiges. L’utilisation d’un outil génératif doit donc s’accompagner d’un protocole de vérification solide. 

Les dirigeants ont intérêt à maintenir une intervention humaine. L’IA peut accélérer les tâches, mais la validation humaine évite la propagation d’erreurs. Un modèle basé sur des données d’entreprise augmente la fiabilité. 

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥