ChatGPT détrôné pour la 1ère fois ! Cette IA atteint le top 1 sur Chatbot Arena

Il n'aura pas fallu longtemps à 3 Opus pour dépasser . Le récent grand modèle de langage d' est numéro un sur Chatbot Arena.

Claude 3 Opus devient le premier grand modèle de langage (LLM) à passer devant -4 depuis le lancement de Chatbot Arena en mai 2023. Avant son lancement, Anthropic avait annoncé que son LLM allait établir de nouveaux standards sur une vaste palette de tâches cognitives. Cette nouvelle place de numéro un vient confirmer cela.

Chatbot Arena est en quelque sorte un amphithéâtre romain et les grands modèles de langage en sont les gladiateurs. Les LLM s'affrontent donc dans cette arène virtuelle.

C'est une plateforme développée par l'organisation de recherche Large Model Systems Organization (LMSYS). Celle-ci compte parmi ses membres des professeurs et des étudiants des universités de Californie à Berkeley et à San Diego, ainsi que de la prestigieuse université Carnegie-Mellon.

Chatbot Arena sert ainsi pour l'évaluation des LLM. GPT-4, moteur du populaire ChatGPT d', en était le seul numéro depuis le lancement de la plateforme.

Comment fonctionne Chatbot Arena ?

Le classement de Chatbot Arena ne repose pas seulement sur les capacités des modèles. Son élaboration se base principalement sur les préférences humaines.

Cette plateforme ouverte fonctionne selon une approche de comparaison par paires. Sa méthodologie repose également sur le crowdsourcing.

Cela signifie que cette arène virtuelle pour LLM tire profit des contributions d'une base diversifiée d'utilisateurs. Depuis mai 2023, celle-ci cumule plus de 240 000 votes.

Chatbot Arena n'est sans doute pas la seule plateforme de ce genre. Néanmoins, son classement figure parmi les plus référencés. Les entreprises mastodontes de l'intelligence artificielle s'appuient considérablement sur ses résultats.

Claude 3 Opus impressionne les développeurs

Anthropic se présente comme le grand concurrent d'OpenAI sur le marché de l'intelligence artificielle. Les performances de sa récente famille de modèles confirment cela.

Il faut savoir que le LLM Opus est le plus avancé de la famille Claude 3. Notons que cette dernière comprend également les modèles Sonnet et Haiku. Ces derniers occupent respectivement les quatrième et sixième places du classement Chatbot Arena.

Par ailleurs, Claude 3 Opus arrive à prendre en charge des analyses complexes. Ses capacités lui permettent également de gérer des tâches plus longues comprenant plusieurs étapes. Le nouveau numéro un des IA génératives excelle particulièrement pour le codage de haut niveau et pour les mathématiques.

« Je viens d'avoir une longue session de codage avec Claude 3 Opus, et il écrase absolument GPT-4 », a partagé ce développeur sur X après avoir é le modèle.

Cet autre codeur n'hésite pas à parler de « la mort du Roi ».

Opus convainc les développeurs. « Les meilleurs modèles disponibles : Opus pour les tâches avancées, Haiku pour les coûts et l'efficacité », pense Simon Willison, chercheur indépendant en intelligence artificielle.

Déclin de ChatGPT, vers l'hégémonie de Claude ?

Depuis leur disponibilité plus tôt dans le mois, les modèles Claude 3 ont rapidement progressé dans le classement Chatbot Arena. Cela, malgré la concurrence des différentes versions de GPT-4.

Ce succès a déjà conduit certains utilisateurs d'assistant IA à remplacer ChatGPT. « Le plus fou dans cette histoire de Claude 3 > GPT-4 est la facilité avec laquelle on peut simplement (…) changer », a posté ce développeur sur les réseaux sociaux.

Par ailleurs, il raconte utiliser beaucoup moins ChatGPT depuis la sortie de Claude 3 Opus. Le codeur n'envisage pas de revenir avant des mises à jour majeures chez OpenAI.

D'autre part, Willison voit plutôt cette situation d'un bon œil. « Nous bénéficions tous d'une diversité de fournisseurs de premier plan dans ce domaine », pense le chercheur.

Rappelons que GPT-4 a plus d'une année. Le fait qu'OpenAI ait pris un certain recul a permis à la concurrence de rattraper son retard.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *