Les benchmarks placent Llama 4 dans une ligue supérieure, capable de rivaliser avec les concurrents chinois.
Meta a même adopté l’architecture Mixture of Experts pour ses modèles Scout et Maverick, une première pour l’entreprise. Des ‘war rooms’ ont analysé les stratégies des concurrents chinois afin d’optimiser Llama 4.
Llama 4, le concurrent des ténors chinois
Meta accélère le développement de Llama 4 pour contrer les progrès rapides des concurrents chinois. DeepSeek impressionne avec ses performances élevées et ses coûts réduits, tandis que Qwen excelle dans le traitement de données massives.
Ces succès poussent l’entreprise américaine à adopter des techniques similaires, notamment le MoE, déjà éprouvé par ses rivaux asiatiques.
À titre d’illustration, Llama 4 Scout gère 10 millions de tokens en entrée, surpassant beaucoup de concurrents en capacité. Maverick vise des performances proches de GPT-4o, selon Meta.
Pourtant, les benchmarks tiers montrent des faiblesses en programmation face à Claude 3.5 Sonnet. Les modèles chinois comme Qwen, entraînés sur 20 trillions de tokens, tiennent bon dans cette course technique.
Inspiration ou copie assumée
Meta ne cache pas s’inspirer des approches de ses concurrents chinois DeepSeek et Qwen pour Llama 4. L’architecture MoE et les pipelines d’entraînement en sont les preuves.
En retour, certains modèles asiatiques ont utilisé les versions précédentes de Llama, comme ChatBIT, un outil militaire chinois.
En revanche, Llama 4 demande beaucoup de ressources, contrairement à DeepSeek. L’entraînement de Behemoth, par exemple, mobilise 32 000 GPU Nvidia avec une précision FP8.
Scout et Maverick génèrent 1 999 tonnes de CO2, un bilan carbone notable, mais meilleur que les modèles denses passés. En comparaison, Qwen coûte bien moins cher à produire, avec seulement 6 millions de dollars investis.
Des benchmarks à la loupe
Les chiffres officiels placent Llama 4 au-dessus de DeepSeek V3.1. Cependant, des experts doutent de ces résultats.
Armand Joulin, de Google DeepMind, évoque des bugs d’implémentation possibles sur X. Les modèles MoE, plus complexes à optimiser, peinent parfois face aux architectures denses.
Autre détail intéressant, Llama 4 n’est pas pleinement open source, malgré les annonces de Meta. Les Européens n’accèdent pas aux licences, ce que critique l’Open Source Initiative.
Les données d’entraînement incluent des posts publics de Facebook, contredisant les promesses passées de l’entreprise. Pendant ce temps, les concurrents chinois de Llama 4 avancent sans ces restrictions, gagnant du terrain sur des marchés clés.
- Partager l'article :