Llama 4 montre un fossé entre ambition et réalité.

Llama 4 montre un fossé choquant entre ambition et réalité

Retour à la réalité pour , les premiers tests sur 4 déçoivent plus d’un.

Le lancement de Llama 4 reste le plus médiatisé pour Meta. Ses nouveaux modèles d’IA multimodale font sensation et continuent de faire écho. Cependant, les rumeurs ne jouent pas en sa faveur. Tricherie, réalité, surestimation… Llama 4 se retrouve vite dans un amas de polémiques et le drama continue.

Une ambition multimodale 

J’ai vu et revu les louanges faites à Scout et Maverick, les modèles de Llama 4. Leur capacité à traiter texte et images ainsi que leur compréhension visuelle large rivaliseraient même des géants de l’industrie.

Un modèle enseignant, Llama 4 Behemoth avec 2000 milliards de paramètres, n’aura rien à envier aux -4o et 2.5. Toutefois, c’est ce que les benchmarks dévoilent.

En prime, ces outils sont source, selon Meta. Les développeurs peuvent télécharger ces modèles sur Hugging.Face ou llama.com après acceptation des conditions.

Llama 4, des performances qui défient la réalité

La promesse d’une fenêtre de contexte de 10 millions de jetons pour Scout a fait rêver les experts. Cependant, les tests de Llama 4 montrent une tout autre réalité, des limites flagrantes.

Exécuter un contexte de 1,4 million de jetons exige huit GPU H100, un seuil difficilement accessible. Simon Willison rapporte que des services comme Groq plafonnent à 128 000 jetons.

YouTube video

Même Together AI n’offre que 328 000 jetons. Cette différence entre annonce et usage réel est tout simplement superficielle.

Les vagues de critiques persistent sans relâche. Sur les réseaux sociaux, les tests de Scout sur des tâches comme « résumer 20 000 jetons » donnent des résultats incohérents

Sur X, Andriy Burkov critique les modèles monolithiques comme Llama 4. Il met en avant le raisonnement via apprentissage par renforcement.  

Certains utilisateurs de Reddit pointent des faiblesses dans le codage face à DeepSeek ou Qwen. Ces réalités sont en contradiction avec les benchmarks et freinent l’élan initial de Llama 4.

Ouverture relative et benchmarks

Meta présente Llama 4 comme un modèle open source, mais des restrictions de licence nuancent cette prétention. Le terme « poids ouvert » paraîtrait plus juste.  

Et les ambiguïtés ne s’arrêtent pas là. Sur les benchmarks, Maverick surpasse parfois GPT-4o. Cette version expérimentale se hissant même à la deuxième place sur Chatbot Arena (ELO 1417).  

Pourtant, ces scores ne traduisent pas toujours la réalité de l’usage quotidien de Llama 4. Selon TechCrunch, la variante optimisée pour les conversations sur LMArena diffère du modèle public, semant ainsi la confusion.  

LMArena, dans une critique publiée sur X le 8 avril, a dénoncé ce manque de transparence et exigé plus de clarté de la part de Meta. En réponse, la plateforme a promis des données plus fiables et une mise à jour prochaine de son classement.

">

Ahmad Al-Dahle, chez Meta, explique ces écarts de performance par des instabilités techniques, rejetant toute idée de manipulation. Certains y voient une ressemblance avec les benchmarks biaisés des smartphones.

Al-Dahle, lui, défend les avancées de Llama 4, tout en concédant qu’il reste des bugs à résoudre.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥