un robot superpuisssant qui crée une boule de codes avec ses mains, au milieu de la boule l'écriture "DeepSeek V3-0324"

DeepSeek R1 repousse encore ses limites ! Voici les nouveautés de l’IA chinoise

Ny Ando A. 27 mars 2025 3 minutes de lecture Intelligence artificielle

DeepSeek continue d’avancer sans faire de bruit. La firme chinoise a déployé, le 24 mars, DeepSeek-V3-0324. Une version de son modèle open source V3 dotée de meilleures capacités en mathématiques et en programmation.

Vous vous demandez sûrement ce que ça a avoir avec le modèle R1. Et bien, pas de panique, nous allons y venir !

Au fait, R1, ce modèle de raisonnement aux capacités avancées qui a était sur toutes les lèvres en début d’année, il est basé sur DeepSeek-V3. Déjà à l’époque, cette IA fascinait les experts.

Alors, imaginez de quoi elle sera capable si elle est boostée par la version mise à jour V3-0324. D’ailleurs, cette dernière pourrait tout aussi être un prélude à R2, le nouveau modèle de la startup dont le lancement est attendu prochainement.

Mais qu’est-ce que V3-0324 a de si spécial ?

Sur le plan technique, DeepSeek-V3-0324 dépasse son prédécesseur en puissance.

Il passe de 671 à 685 milliards de paramètres et repose sur un cluster de 32 000 GPU. Ce qui en fait l’un des modèles open source les plus impressionnants du moment.

Son architecture repose toujours sur le principe du Mixture-of-Experts (MoE). Un système où plusieurs réseaux neuronaux spécialisés s’activent en fonction des requêtes, permettant d’optimiser les performances tout en limitant la consommation de ressources.

Autre chose. DeepSeek-V3-0324 intègre l’architecture Multi-head Latent Attention (MLA). Il s’agit d’un mécanisme permettant de compresser simultanément les clés et les valeurs d’attention, réduisant ainsi la mémoire requise pour l’inférence.

Traduction : Cette nouvelle version est plus efficace tout en étant moins gourmande en ressources que ses concurrents directs.

Fidèle à sa philosophie d’ouverture, l’entreprise a publié cette mise à jour sous licence MIT, l’une des plus permissives. Elle est également proposée sur Hugging Face, à disposition des développeurs.

Ce qui est étrange, c’est que la sortie de cette MAJ s’est faite sans la moindre annonce officielle de la part de DeepSeek. Malgré cela, elle suscite déjà un intérêt marqué dans la communauté IA.

Moins de 24 heures après son lancement, plusieurs experts évoquent des progrès notables en mathématiques et en codage. On peut donc en déduire que V3-0324 est bien plus qu’un simple ajustement technique.

DeepSeek joue les troubles-fêtes

Savez-vous que DeepSeek-V3-0324 coïncide avec l’arrivée de Gemini 2.5 Pro, la dernière évolution du modèle d’IA de Google ? Si on appelle ça une coïncidence !

Gemini 2.5 Pro améliore précisément les mêmes aspects que V3-0324. Capacités de codage optimisées, raisonnement plus affûté, gestion des jetons plus efficace, le tout agrémenté d’un lot de nouvelles fonctionnalités.

Ce que j’insinue c’est que DeepSeek a le sens du timing. Et ce n’est pas que mon hypothèse. Sur Reddit, un utilisateur l’a également évoqué mais sous un autre angle :

« Et voilà, c’est parti ! R2 arrive, ils attendent que OpenAI sorte o3, puis ils vont leur gâcher la journée en sortant un modèle équivalent, mais open source, le même jour » commente-t-il dans un post parlant de la mise à jour.

Au cas où vous n’arrivez pas à suivre, je vous explique. Comme je disais au début de cet article, bien que V3-0324 a l’air d’une amélioration anodine, il est fort probable qu’elle insinue l’arrivée imminente de DeepSeek R2.

Et l’utilisateur de Reddit a fait le rapprochement : R2 va aussi gâcher la fête de la sortie d’OpenAI o3.

Quoi qu’il en soit, ce ne sont que des théories. D’ailleurs, n’hésitez pas à partager dans le commentaire ce que vous pensez des avancées de cette entreprise chinoise.

À vos claviers !