Quelques jours après avoir dévoilé les premières versions de ses modèles V4, DeepSeek réduit déjà ses prix. Une offre promotionnelle permanente est en cours pour V4-Pro.
DeepSeek a lancé la version préliminaire de son modèle V4 le 24 avril. Disponible en deux versions, Pro et Flash, V4 est open source et impressionne par ses performances. Si l’on croit DeepSeek, V4-preview rivalise avec les modèles fermés américains les plus performants. Par exemple Claude Opus 4.7, Gemini 3.1 Pro ou encore GPT-5.4 High. Et pourtant, ses tarifs API sont nettement plus bas.
DeepSeek V4 à tarifs encore plus réduits
L’entreprise avait d’abord annoncé une première bonne nouvelle fin avril.
L’API DeepSeek-V4-Pro profitait d’une remise de 75 %, initialement prévue jusqu’en mai.
Coup de théâtre fin mai 2026 : cette réduction massive est officiellement devenue permanente.
Au lieu du plein tarif, le prix est figé à 0,03625 $ pour 1M de tokens d’entrée en cache. Hors cache, le prix de base tombe à 0,435 $ au lieu des 1,74 $ initiaux. Et pour les sorties, les développeurs ne paieront que 0,87 $ au lieu de 3,48 $. Voilà une occasion en or pour tester ses capacités de raisonnement logique sans se ruiner.
Toutefois, ce n’est pas le seul exploit commercial de l’entreprise chinoise. DeepSeek a aussi fait chuter de 90 % le coût d’accès au cache d’entrée. Désormais, le hit de cache ne représente plus qu’un dixième du prix initial pour l’ensemble des API.
En comparaison, les services propriétaires américains affichent des tarifs extrêmement punitifs pour des performances similaires.
(Comparatif des tarifs pour 1 million de tokens) :
- Claude Opus 4.7 : Environ 5 dollars en entrée et 25 dollars en sortie.
- GPT-5.5 (OpenAI) : 5 $ en entrée et 30 $ en sortie (jusqu’à 180 $ en sortie pour la version Pro).
- Gemini 3.1 Pro : 2 $ en entrée et 12 $ en sortie, avec des tarifs qui doublent passé 200 000 tokens.
Le secret de l’entreprise chinoise
Pour obtenir des coûts de fonctionnement aussi réduits, DeepSeek a repensé la matrice.
L’entreprise indique dans son document de recherche avoir mis au point un système d’attention hybride.
Il est baptisé CSA (Compressed Sparse Attention) et HCA (Heavily Compressed Attention).
Ce système compresse activement les données à chaque étape du processus. Et évite de devoir traiter les données dans leur totalité. Ce qui conduit à une économie d’énergie précieuse. Résultat, sur un contexte massif d’un million de tokens, DeepSeek-V4-Pro est incroyablement efficient.
Le modèle n’utilise que 27 % des ressources de calcul (FLOPs) nécessaires à son prédécesseur DeepSeek-V3.2. Plus impressionnant encore, il ne mobilise que 10 % de la mémoire cache. Et cette ingénierie d’avant-garde allège considérablement la charge sur les serveurs distants.
Dans le même élan d’optimisation algorithmique, DeepSeek a procédé à un autre changement remarquable. En fait, l’entreprise abandonne l’optimiseur traditionnel AdamW au profit de l’optimiseur novateur Muon. Un choix radical qui permet une convergence plus rapide du modèle et une stabilité d’entraînement inédite
La fin de « l’anxiété des tokens » pour les développeurs
La décision de rendre cette grille tarifaire permanente redéfinit les règles du jeu en 2026.
Auparavant, la communauté des développeurs souffrait de « l’anxiété des tokens », limitant les requêtes longues. Aujourd’hui, avec un système de mise en cache quasi gratuit, cette barrière psychologique disparaît.
Les équipes peuvent désormais insérer des documentations techniques entières dans le contexte du modèle. Et l’automatisation avancée du code et les agents IA autonomes deviennent enfin viables financièrement. C’est ainsi que DeepSeek force ses concurrents américains à revoir leur stratégie de tarification agressive.
- Partager l'article :