Meta se retrouve au cœur d’un débat animé depuis la sortie surprise de Llama 4. Des voix s’élèvent contre sa qualité. Malgré tout, la firme affirme que son modèle a du potentiel et mérite une seconde chance.
Depuis 2023, Meta enchaîne les versions de Llama à grande vitesse. Mais pour Llama 4, lancé le 5 avril 2025, les choses ne se passent pas comme prévu. Des spécialistes du domaine s’interrogent, et certains crient même à la manipulation. Pourquoi ?
Meta mise sur l’innovation technique avec Llama 4, mais…
Bon, commençons par ce que Meta a présenté fièrement : Llama 4, un modèle décliné en trois versions bien distinctes.
D’abord, Llama 4 Scout, avec ses 17 milliards de paramètres actifs sur un total de 109 milliards. Ensuite vient Llama 4 Maverick, qui garde les 17 milliards actifs mais grimpe à 400 milliards au total grâce à ses 128 experts. Et enfin, Llama 4 Behemot, une vraie bête : 288 milliards de paramètres actifs sur 2 000 milliards, rien que ça !
C’est notamment Llama 4 Maverick qui a attiré l’attention. Meta affirme qu’il surpasse plusieurs modèles connus comme GPT-4o d’OpenAI ou Gemini 2.0 Flash de Google.
D’après leurs tests, il brille en matière de raisonnement, de codage, et même en performance globale. Sur LMArena, une plateforme qui note les IA avec un système ELO (comme aux échecs), Maverick aurait obtenu un score impressionnant de 1 417. Pour donner un ordre d’idée, seule une version expérimentale de Gemini 2.5 Pro a fait un peu mieux, avec 1 439. Pas mal du tout !
Et voilà, Meta en profite pour vanter un excellent rapport performance/prix. Selon eux, Llama 4 Maverick est plus performant que les autres tout en étant plus léger. Moins de paramètres actifs, mais des résultats au top.
Sauf que, ce n’est pas la version que le public a reçue
Ouf… Il y avait un hic, et pas des moindres. Très vite après le lancement, certains experts ont creusé un peu. Et devinez quoi ? La version de Llama 4 Maverick testée sur LMArena n’est pas celle que tout le monde peut utiliser.
C’est une version expérimentale, optimisée pour la conversation humaine, baptisée « Llama-4-Maverick-03-26-Experimental ». Et donc, elle n’a pas grand-chose à voir avec la version classique, mise à disposition du public.
C’est d’ailleurs TechCrunch qui a révélé cette différence dès le 6 avril. Et sans surprise, la communauté IA a réagi rapidement.
De nombreux développeurs se sont exprimés. L’un d’eux, @cto_junior, a affirmé que Llama 4 Maverick n’atteignait que 16 % de réussite sur un test de codage. Ce résultat est bien en dessous des anciens modèles concurrents.
D’autres experts ont également critiqué la taille réelle du contexte. Le docteur Andriy Burkov explique que malgré les promesses, le modèle n’a jamais été entraîné avec plus de 256 000 jetons. Il pense que les performances chutent quand on dépasse ce seuil.
Un autre utilisateur du forum LocalLlama a comparé Llama 4 de Meta à DeepSeek V3. Il a montré que le modèle de Meta échouait sur des tâches simples comme simuler des balles en mouvement.
Et le 8 avril, la plateforme LMArena a publié aussi un message sur X (anciennement Twitter) pour exprimer son mécontentement. Selon eux, Meta aurait dû mentionner clairement qu’il s’agissait d’une version spéciale, taillée pour obtenir de bons résultats.
LMArena a donc annoncé des mesures immédiates. Elle publiera plus de données pour chaque modèle testé. Elle modifiera aussi ses règles de classement pour garantir plus de transparence. Le score de Llama 4 pourrait être ajusté, une fois les nouvelles règles en place.
Meta nie toute triche… mais reconnaît quelques ratés
Quant à Meta, la réponse n’a pas tardé. Ahmad Al-Dahle, vice-président chez Meta, a publié un message sur X. Il a admis que les performances différaient en fonction des services utilisés. Il a aussi expliqué que les modèles avaient été lancés rapidement, sans attendre une mise en place complète.
Et selon lui, les problèmes viennent surtout de bugs liés à l’intégration. Meta affirme que ces erreurs seront corrigées dans les prochains jours. L’entreprise nie avoir utilisé des ensembles de tests pour entraîner Llama 4. Elle rejette fermement cette accusation, qu’elle juge contraire à ses valeurs.
Meta insiste aussi sur les points positifs. D’après Ahmad Al-Dahle, Llama 4 est un vrai progrès. Il espère que la communauté donnera une chance au modèle.
Selon vous, peut-on encore faire confiance aux évaluations actuelles dans le monde de l’intelligence artificielle ? Pensez-vous que Meta a manqué de transparence ? N’hésitez pas à partager votre point de vue en commentaire.
- Partager l'article :