ChatGPT détrôné pour la 1ère fois ! Cette IA atteint le top 1 sur Chatbot Arena

Magloire B. 29 avril 2024 3 minutes de lecture IA générative, Intelligence artificielle

Il n'aura pas fallu longtemps à Claude 3 Opus pour dépasser ChatGPT. Le récent grand modèle de langage d'Anthropic est numéro un sur Chatbot Arena.

Claude 3 Opus devient le premier grand modèle de langage (LLM) à passer devant GPT-4 depuis le lancement de Chatbot Arena en mai 2023. Avant son lancement, Anthropic avait annoncé que son LLM allait établir de nouveaux standards sur une vaste palette de tâches cognitives. Cette nouvelle place de numéro un vient confirmer cela.

Chatbot Arena est en quelque sorte un amphithéâtre romain et les grands modèles de langage en sont les gladiateurs. Les LLM s'affrontent donc dans cette arène virtuelle.

C'est une plateforme développée par l'organisation de recherche Large Model Systems Organization (LMSYS). Celle-ci compte parmi ses membres des professeurs et des étudiants des universités de Californie à Berkeley et à San Diego, ainsi que de la prestigieuse université Carnegie-Mellon.

Chatbot Arena sert ainsi pour l'évaluation des LLM. GPT-4, moteur du populaire ChatGPT d'OpenAI, en était le seul numéro depuis le lancement de la plateforme.

Comment fonctionne Chatbot Arena ?

Le classement de Chatbot Arena ne repose pas seulement sur les capacités des modèles. Son élaboration se base principalement sur les préférences humaines.

Cette plateforme ouverte fonctionne selon une approche de comparaison par paires. Sa méthodologie repose également sur le crowdsourcing.

Cela signifie que cette arène virtuelle pour LLM tire profit des contributions d'une base diversifiée d'utilisateurs. Depuis mai 2023, celle-ci cumule plus de 240 000 votes.

Chatbot Arena n'est sans doute pas la seule plateforme de ce genre. Néanmoins, son classement figure parmi les plus référencés. Les entreprises mastodontes de l'intelligence artificielle s'appuient considérablement sur ses résultats.

Claude 3 Opus impressionne les développeurs

Anthropic se présente comme le grand concurrent d'OpenAI sur le marché de l'intelligence artificielle. Les performances de sa récente famille de modèles confirment cela.

Il faut savoir que le LLM Opus est le plus avancé de la famille Claude 3. Notons que cette dernière comprend également les modèles Sonnet et Haiku. Ces derniers occupent respectivement les quatrième et sixième places du classement Chatbot Arena.

Par ailleurs, Claude 3 Opus arrive à prendre en charge des analyses complexes. Ses capacités lui permettent également de gérer des tâches plus longues comprenant plusieurs étapes. Le nouveau numéro un des IA génératives excelle particulièrement pour le codage de haut niveau et pour les mathématiques.

« Je viens d'avoir une longue session de codage avec Claude 3 Opus, et il écrase absolument GPT-4 », a partagé ce développeur sur X après avoir testé le modèle.

Just had a long coding session with Claude 3 opus and man does it absolutely crush gpt-4. I don't think standard benchmarks do this model justice
— anton (@abacaj) March 19, 2024

Cet autre codeur n'hésite pas à parler de « la mort du Roi ».

The king is dead

RIP GPT-4
Claude opus #1 ELo

Haiku beats GPT-4 0613 & Mistral large
That's insane for how cheap & fast it is https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH
— Nick Dobos (@NickADobos) March 26, 2024

Opus convainc les développeurs. « Les meilleurs modèles disponibles : Opus pour les tâches avancées, Haiku pour les coûts et l'efficacité », pense Simon Willison, chercheur indépendant en intelligence artificielle.

Déclin de ChatGPT, vers l'hégémonie de Claude ?

Depuis leur disponibilité plus tôt dans le mois, les modèles Claude 3 ont rapidement progressé dans le classement Chatbot Arena. Cela, malgré la concurrence des différentes versions de GPT-4.

Ce succès a déjà conduit certains utilisateurs d'assistant IA à remplacer ChatGPT. « Le plus fou dans cette histoire de Claude 3 > GPT-4 est la facilité avec laquelle on peut simplement (…) changer », a posté ce développeur sur les réseaux sociaux.

Honestly, the wildest thing about this whole Claude 3 > GPT-4 is how easy it is to just… switch??

I've rarely used ChatGPT since the day Opus launched, or the OA APIs.

There's no "stickiness" in AI experiences, at least not yet.

Not until better agentic frameworks drop. https://t.co/iU71es9PrL
— Pietro Schirano (@skirano) March 27, 2024

Par ailleurs, il raconte utiliser beaucoup moins ChatGPT depuis la sortie de Claude 3 Opus. Le codeur n'envisage pas de revenir avant des mises à jour majeures chez OpenAI.

D'autre part, Willison voit plutôt cette situation d'un bon œil. « Nous bénéficions tous d'une diversité de fournisseurs de premier plan dans ce domaine », pense le chercheur.

Rappelons que GPT-4 a plus d'une année. Le fait qu'OpenAI ait pris un certain recul a permis à la concurrence de rattraper son retard.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

Anthropic ChatGPT Claude GPT OpenAI TEST Twitter

ChatGPT détrôné pour la 1ère fois ! Cette IA atteint le top 1 sur Chatbot Arena

Comment fonctionne Chatbot Arena ?

Claude 3 Opus impressionne les développeurs

Déclin de ChatGPT, vers l'hégémonie de Claude ?

Sur le même sujet

Newsletter

Laisser un commentaire

ChatGPT détrôné pour la 1ère fois ! Cette IA atteint le top 1 sur Chatbot Arena

Comment fonctionne Chatbot Arena ?

Claude 3 Opus impressionne les développeurs

Déclin de ChatGPT, vers l'hégémonie de Claude ?

Sur le même sujet

L’IA de vidéos Kling, ultra-populaire en Chine, enfin disponible en France !

JO Paris 2024 : l’IA prédit les médailles d’or et les records battus

L’armée anglaise teste cette IA qui indique aux soldats quand tirer

Newsletter

Laisser un commentaire