Contrairement à ce que l’on pense, GPT-4, le modèle d’IA d’OpenAI n’est pas le meilleur dans tous les domaines. Elle vient d’être battue par l’IA d’Alibaba en mathématique !
Depuis un certain temps, les start-up tentent de perfectionner leur modèle de langage de grande taille. Ce n’est donc pas la première fois que ChatGPT a été détrôné par d’autres modèles d’IA. Récemment, Qwen2 vient de la battre en mathématique. C’est quoi ? Qu’est-ce qui rend ce LLM aussi particulier ?
Qu’est-ce que le modèle de langage de grande taille Qwen2 ?
Qwen2 est un modèle de LLM open source rival déployé par la société Alibaba Cloud. Il ressemble aux modèles célèbres comme les GPT de la société OpenAI, les Llamas de Meta ou encore la famille Claude de la start-up Anthropic.
Le nom de ce modèle est une abréviation de la marque de cette firme chinoise « Tongyi Qianwe ». La société a commencé à développer ses propres LLM en août 2023, particulièrement les modèles open source suivants : Qwen-7B, Qwen-72B et Qwen-1.8B. Ils ont respectivement 72 milliards et 1,8 milliard de paramètres.
Ensuite, elle a déployé les variantes multimodales comme Qwen-Audio et Qwen-VL (pour les entrées visuelles). Enfin, elle dévoile cinq variantes de Qwen2 en début juin 2024 : 0.5B, 1.5B, 7B, 14B et 72B. Au total, Alibaba a déployé, en moyenne, 100 modèles d’IA de différentes tailles et fonctions dans la famille Qwen au cours de ces dernières années.
Qwen2-Math, le modèle qui a détrôné GPT-4 d’OpenAI
L’équipe Qwen d’Alibaba Cloud vient de dévoiler le concept de Qwen2-Math. Il s’agit d’une toute nouvelle « série de grands modèles de langage spécifiques aux mathématiques » développée pour la langue anglaise.
Les plus puissants d’entre eux sont meilleurs que tous les autres au monde. Plus précisément, ils peuvent battre le célèbre OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet ou encore Math-Gemini Specialized 1.5 Pro de Google.
Qu’est-ce que cela signifie réellement ? La variante Qwen2-Math-72B-Instruct à 72 milliards de paramètres a reçu 84 % au MATH Benchmark for LLMs. Ces dernières proposaient 12 500 « problèmes mathématiques de compétition stimulants ». Ce n’est pas tout, elles proposent également des problèmes de mots pouvant être manifestement difficiles à résoudre pour les LLM.
Par ailleurs, Qwen2-Math-72B Instruct a également réussi à 96,7 % au test de référence en mathématiques du primaire GSM8K composé de 8 500 questions. C’est aussi le cas pour le test de référence en mathématiques de niveau collégial (College Math) à 47,8 %. Non seulement elle a réussi le test, mais a également surpassé la concurrence.
Notons néanmoins que Alibaba a omis de comparer le nouveau modèle Orca-Math de Microsoft sorti en février 2024 dans ses graphes de référence. Il s’agit d’une variante de Mistral-7B, qui n’est autre qu’une version de Llama.
En fait, ce modèle qui est doté de 7 milliards de paramètres obtient un résultat assez proche de Qwen2- Math-7B-Instruct à 86,81 % pour Orca-Math contre 89,9 % pour Qwen-2-Math-7B-Instruct.
Que pensez-vous de ce nouveau modèle de LLM ? Vous pouvez partager votre avis dans les commentaires !
- Partager l'article :