Qwen 3, l’arme d’Alibaba pour conquérir le marché mondial de l’IA

Avec son nouveau modèle de langage Qwen 3, le géant chinois Alibaba frappe fort sur le marché de l’IA. Entraîné sur 36 trillions de tokens et capable de traiter des textes de 32 000 mots dans 119 langues, ce LLM -source ambitionne de rivaliser avec -4 et .

Qwen 3, le défi chinois aux géants américains de l’IA

Qwen 3 est le tout dernier modèle de langage développé par Alibaba , officiellement dévoilé fin avril 2025. Il s’inscrit dans la lignée de la série Tongyi Qianwen, lancée en 2023. Et succède à Qwen, Qwen 2 et Qwen 2.5.

Avec le lancement de Qwen 3, Alibaba poursuit un objectif précis : s’imposer comme une alternative crédible face aux géants américains du secteur, à l’instar d’Openai avec GPT-4 ou avec son LLM Gemini.

YouTube video

Qwen 3 est distribué sous licence 2.0 sur les plateformes et ModelScope. Toutefois, si le code source est ouvert, les poids du modèle — essentiels à son fonctionnement — restent soumis à une licence spécifique d’Alibaba. Cette dernière impose des restrictions, notamment en ce qui concerne les usages commerciaux.

Sur le plan technique, Qwen 3 adopte une architecture hybride capable d’alterner entre deux modes d’exécution. Le mode dit Thinking favorise des raisonnements approfondis, tandis que le mode Non-Thinking privilégie des réponses plus rapides. Cette division permet d’adapter le niveau de réflexion du modèle à la complexité de la tâche.

Qwen 3 se décline par ailleurs en plusieurs variantes. Certaines, dites denses, mobilisent l’intégralité des paramètres du LLM à chaque requête. D’autres adoptent une architecture MoE (Mixture of Experts), où seul un sous-ensemble spécialisé est déclenché en réponse aux prompts.

Qwen 3 peut gérer des textes très longs, allant jusqu’à 32 000 mots. Il comprend et génère du texte dans 119 langues, des plus courantes comme l’anglais, le français ou le chinois, aux moins répandues.

Une architecture hybride aux multiples déclinaisons

Qwen 3 s’appuie sur une architecture inspirée de LLaMA, le modèle développé par Meta. Dans le détail, il se décline en huit variantes principales : six versions dites « denses » et deux versions MoE (Mixture of Experts).

Les versions « denses » de Qwen 3 comptent 0,6 et 32 milliards de paramètres. Plus il y a de paramètres, plus le modèle est puissant, mais aussi gourmand en ressources. Les versions MoE (Mixture of Experts) sont encore plus grandes, mais utilisent moins de paramètres à chaque requête. Par exemple, Qwen 3-30B-A3B a 30 milliards de paramètres, mais n’en active que 3 milliards à chaque inférence. Le plus gros modèle, Qwen 3-235B-A22B, en compte 235 milliards, avec 22 milliards actifs par requête.

L’intérêt des déclinaisons MoE est double : économiser de la mémoire vive et accélérer les calculs. Concrètement, cela permet au modèle de rivaliser avec des architectures beaucoup plus volumineuses, tout en nécessitant moins de ressources matérielles. Par exemple, Qwen 3-30B-A3B n’exploite en moyenne que 10 % de ses paramètres totaux pour générer une réponse.

En termes de programmation, Qwen 3 intègre nativement le format d’invite classique assistant/utilisateur. Il peut afficher ou non une chaîne de réflexion explicite, selon les besoins.

Qwen 3 fonctionne avec des frameworks connus comme Transformers, SGLang et vLLM. Cela facilite considérablement son utilisation et son déploiement dans des projets existants.

Un apprentissage massif sur 36 trillions de tokens

Qwen 3 a été entraîné sur 36 trillions de tokens, soit presque le double de Qwen 2.5. Les données viennent de sources variées : pages web, livres, articles académiques, documents PDF, bases STEM, et exemples de code générés par Qwen2.5-Coder…

L’apprentissage de Qwen 3 s’est articulé en trois phases successives. La première consistait en un entraînement général sur des textes standards, avec une capacité de contexte de 4 000 mots. La deuxième phase a enrichi ce socle avec des contenus spécialisés en mathématiques, sciences et informatique. Enfin, la dernière étape a porté sur l’entraînement à la gestion de textes très longs, jusqu’à 32 000 mots.

Cette approche progressive a permis à Qwen 3 de consolider des compétences solides dans divers domaines. Il se distingue particulièrement en résolution de problèmes logiques, en programmation et en compréhension générale. D’après les tests réalisés, Qwen3-32B atteint des performances comparables à celles de modèles nettement plus volumineux, tels que Qwen2.5-72B.

Grâce à cet entraînement approfondi, Qwen 3 démontre aussi une solide maîtrise des langues rares comme le basque ou le géorgien. Parmi les 119 langues qu’il reconnaît, beaucoup sont sous-représentées dans les jeux de données traditionnels. Cette richesse linguistique est le fruit d’un travail de collecte rigoureux, mené par Alibaba en combinant sources publiques et internes.

Qwen 3, des résultats au niveau des modèles propriétaires

Sur les benchmarks standardisés, Qwen 3 se classe parmi les meilleurs modèles open-source disponibles. Comparé à Llama 4 “Maverick” (Meta), Qwen3-235B obtient de meilleurs résultats dans la plupart des tests. Et ce malgré un nombre moindre de paramètres actifs. Face à DeepSeek V3, un concurrent chinois récent, Qwen3-235B remporte 14 épreuves sur 15.

Sur MMLU, mesurant les connaissances générales, Qwen3 obtient entre 85 et 87 %. Sur GSM8K, dédié aux raisonnements mathématiques, il tourne autour de 90–94 %. En programmation, il obtient des scores élevés sur HumanEval et EvalPlus (environ 75–78 %).

Ces résultats positionnent Qwen 3 au niveau des grands modèles propriétaires, comme GPT-4. Il se distingue notamment par ses excellents résultats en mathématiques et en programmation, où il rivalise avec les meilleurs.

Même les versions compactes, comme Qwen3-32B, atteignent un haut niveau de performance. Elles affichent des résultats équivalents à des modèles comme 3 et Large. Grâce à cette efficacité, Qwen 3 s’adapte aisément à une multitude d’applications, allant de la recherche à l’industrie en passant par les services.

Applications polyvalentes et intégration technique avancée

Qwen 3 est un modèle très polyvalent. Il peut écrire, traduire, résumer, répondre à des questions ou produire du code. Sa capacité à traiter des documents longs le rend particulièrement adapté à des domaines complexes, tels que l’analyse juridique ou technique.

En programmation, Qwen 3 se révèle particulièrement efficace. Il peut écrire, corriger et optimiser du code dans plusieurs langages. Sa compatibilité avec le protocole MCP (Model Context Protocol) lui permet d’interagir avec des outils externes. Cette intégration ouvre la voie à des usages avancés, comme l’exécution automatisée de scripts ou la création d’agents d’intelligents.

Une des forces notables de Qwen 3 réside dans sa capacité à expliquer ses raisonnements. Cette fonctionnalité, appelée « chaîne de réflexion », permet de suivre les étapes menant à une réponse. C’est particulièrement utile pour des pour le débogage ou l’apprentissage.

Avec ces atouts, Qwen 3 ne se contente pas de répondre aux besoins courants : il élargit les possibilités d’utilisation de l’intelligence artificielle. Sa combinaison de polyvalence, d’intégration technique et de transparence en fait un outil incontournable pour des applications avancées dans des secteurs variés.

Qwen 3, vers un modèle multimodal et hautement sécurisé

Qwen 3 est un modèle abouti, mais Alibaba continue de travailler sur son amélioration. Les recherches actuelles visent à renforcer son efficacité énergétique, sa gestion des données et son accessibilité, afin d’en faire un outil encore plus performant.

Une piste d’évolution pour Qwen 3 concerne ses capacités multimodales. Aujourd’hui centré sur le traitement du texte, le modèle pourrait bientôt intégrer des fonctions liées à l’image, l’audio et la vidéo. Cette avancée ouvrirait la voie à des assistants capables de gérer plusieurs types de données en même temps, pour des interactions plus riches et plus naturelles.

Parallèlement, Alibaba s’attache à renforcer la sécurité de Qwen 3. Des outils de filtrage et de vérification sont en cours de développement afin de mieux contrôler les contenus générés. Ces mesures ont pour but d’assurer une utilisation responsable du modèle, en particulier dans des domaines sensibles comme la santé ou la justice.

Qwen 3 est déjà utilisé dans plusieurs pays. Sa licence ouverte et sa présence sur des plateformes populaires attirent les startups ainsi que les petites et moyennes entreprises. De son côté, Alibaba souhaite renforcer sa collaboration avec les universités et les communautés open-source, afin de stimuler l’innovation autour du modèle.

YouTube video

En combinant performance, accessibilité et modularité, Qwen 3 marque une étape importante dans l’évolution des LLM.  Bien qu’il ne soit pas parfait, il constitue une alternative crédible aux offres des grands leaders du secteur.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥