Connaissez-vous Cerebras, le challenger de NVIDIA ?

Mahery A. 3 janvier 2026 6 minutes de lecture Technologie

Une capitalisation de 10 milliards de dollars propulse Cerebras Systems parmi les leaders mondiaux du silicium. Ce nouvel acteur bouscule la hiérarchie établie au sein des centres de calcul haute performance. Zoom sur ce challenger de NVIDIA.

Cerebras Systems est une entreprise technologique américaine fondée en 2015 qui revendique quelques uns des plus grands processeurs pour l’intelligence artificielle. Sa technologie de rupture repose sur le Wafer-Scale Engine, une puce de la taille d’une galette de silicium entière avec une vitesse de calcul et une bande passante mémoire largement supérieures aux GPU traditionnels.

Cerebras, rival direct de NVIDIA

La société de Sunnyvale bouscule les standards du calcul intensif. Elle livre avant tout des systèmes monolithiques aux centres de données. Cette technologie évite les délais de communication entre les composants. De plus, les revenus grimpent de 1400 % sur l’exercice de l’année dernière. Cependant, les clients délaissent les infrastructures de NVIDIA pour cette solution. Ce changement favorise l’efficacité énergétique des installations de serveurs. Les ingénieurs déploient ces machines pour l’entraînement des modèles. Le gain de place devient de ce fait un argument pour les exploitants.

Chaque unité remplace des centaines de processeurs graphiques. La firme californienne stabilise sa production pour répondre à la demande. Les délais de livraison raccourcissent malgré la tension sur les matières premières. Cette réactivité commerciale séduit les nouveaux acteurs du secteur. Par ailleurs, le marché du Moyen-Orient absorbe une part de la production. Les contrats signés dépassent les attentes des observateurs financiers. La concurrence se déplace alors sur le terrain de la simplicité logicielle. L’entreprise propose, en effet, des outils de compilation automatique très performants.

Cerebras en quelques chiffres

10 milliards : La valorisation de Cerebras Systems atteint ce montant record lors de son introduction boursière.
46 225 millimètres carrés : Cette mesure définit la surface totale de la puce géante gravée en silicium.
4 billions : Le nombre de transistors sur un seul processeur dépasse ce chiffre astronomique.
900 000 unités : Les cœurs de calcul s’élèvent à cette quantité impressionnante au sein du moteur.
44 gigaoctets : La capacité de stockage interne assure un accès immédiat aux données de travail.
21 pétaoctets : La bande passante par seconde favorise des transferts de bits à une vitesse incroyable.
1800 jetons : Le débit par seconde pour le modèle Llama 3.1 surpasse les standards actuels.
10 centimes : Le prix de déduction pour 1 million de jetons rend le service très accessible.
10 millisecondes : La latence pour l’utilisateur final descend sous ce seuil pour une fluidité totale.
1400 % : Le taux de croissance annuel des revenus confirme l’intérêt pour cette innovation technologique.

Introduction en Bourse et IPO au Nasdaq

D’abord, le dossier déposé auprès de l’autorité des marchés financiers confirme l’opération. L’offre publique initiale ou Initial Public Offering vise le Nasdaq Global dès ce printemps. La banque JPMorgan dirige ce processus de mise sur le marché. Les analystes prévoient une valorisation record pour un fabricant. Cette rentrée d’argent frais soutient alors la recherche pour les futurs composants. L’entreprise prévoit notamment d’embaucher 500 ingénieurs supplémentaires cette année. Les investisseurs surveillent la croissance des marges bénéficiaires de la société. Le modèle économique repose sur la vente de systèmes intégrés.

Cela limite la dépendance aux distributeurs tiers pour le matériel. La transparence des chiffres rassure les fonds de pension internationaux. Une part du capital reste entre les mains des fondateurs historiques. Ils conservent ainsi le contrôle de la direction stratégique. Toutefois, la demande pour les titres dépasse l’offre initiale disponible. Les courtiers anticipent une volatilité lors de la première séance. Cette étape marque la maturité de l’industrie du calcul spécialisé. L’argent récolté finance également la construction de nouveaux laboratoires.

Records de vitesse pour CS-3 et Llama 3.1

Le serveur exécute le modèle Llama 3.1 à une allure vive. Les tests affichent notamment un débit de 1800 jetons par seconde. Cette performance dépasse les capacités des grappes de serveurs habituelles. Le temps de réponse pour l’utilisateur tombe sous les 10 millisecondes. Les applications de conversation deviennent instantanées grâce à cette prouesse. Le débit reste stable même avec des milliers de requêtes. Les ingénieurs mesurent une efficacité constante sur les longs textes. Cette vitesse transforme la manière de concevoir les agents virtuels.

Ils traitent désormais des documents entiers en un clin d’œil. La latence disparaît totalement lors des interactions vocales avec l’ordinateur. Les bancs d’essai officiels placent la machine en tête des classements. La supériorité technique découle de l’absence de transfert externe. Le processeur conserve toutes les informations utiles dans ses circuits propres. Cela supprime surtout les ralentissements liés aux câbles de liaison. Les entreprises de services financiers exploitent notamment cette rapidité pour le courtage. Elles exécutent des milliers de simulations chaque minute.

Le Wafer-Scale Engine 3 une puce hors norme

La pièce maîtresse mesure 46 225 millimètres carrés de silicium pur. Ce composant unique possède 4 billions de transistors microscopiques. Sa fabrication nécessite ainsi une galette entière de 300 millimètres de diamètre. Le fondeur TSMC utilise par ailleurs un procédé de gravure en 5 nanomètres.

Cette densité autorise l’intégration de 900 000 cœurs de calcul indépendants. L’architecture monolithique remplace les assemblages de petites puces. Chaque zone du processeur communique avec ses voisines sans délai. Les erreurs de fabrication ne bloquent pas le fonctionnement du système.

Un mécanisme de secours remplace les transistors défaillants de manière invisible. Cette conception assure une durée de vie prolongée au matériel. Le boîtier contient des canaux pour la circulation d’un liquide. Cette gestion thermique évite la surchauffe malgré la puissance.

Le poids du module de calcul dépasse les 20 kilogrammes. L’installation demande un châssis spécifique pour supporter cette masse. Les connexions électriques atteignent un nombre record sur la face arrière. Cette innovation technologique redéfinit les frontières de la microélectronique.

Puissance mémoire et bande passante du WSE-3

Le stockage interne directement sur le circuit atteint 44 gigaoctets. Les échanges de données s’effectuent à 21 pétaoctets par seconde. Ce chiffre dépasse donc très largement les standards de la mémoire vidéo. Les algorithmes accèdent aux poids du modèle en un temps record. Cette proximité immédiate réduit aussi les pertes d’énergie sous forme de chaleur. Le système gère les modèles de langage de taille importante. Une unité de stockage externe épaule le processeur pour les paramètres. La liaison entre les modules atteint 1,2 téraoctets par seconde.

Ce flux continu alimente les cœurs de calcul sans interruption. Les performances ne chutent jamais par manque de données. L’architecture supporte des réseaux de neurones de 100 trillions de connexions. Cette capacité immense ouvre la porte à des intelligences complexes. Le matériel traite les images haute définition en quelques fractions. Les vidéos subissent alors une analyse sans aucun ralentissement. Puis, la bande passante interne élimine le besoin de compression des données. Cela préserve la précision des calculs durant les simulations.

Partenariats stratégiques avec Mistral AI et Meta

L’alliance avec Mistral AI renforce la présence en Europe. Les deux sociétés optimisent les modèles français pour le matériel. Cette collaboration technique vise une efficacité pour les entreprises du continent. De son côté, Meta Platforms utilise ces serveurs.

Les ingénieurs de Mark Zuckerberg testent les versions de leurs algorithmes. Ils apprécient la rapidité de la phase de déduction (inference). L’accès à ces machines s’effectue via des centres de données. Ces installations respectent les normes de protection de la vie.

Le partenariat inclut également le développement de logiciels en open source. La communauté des chercheurs bénéficie de nouveaux outils de programmation. Les bibliothèques de code s’adaptent à la structure du processeur. Cela facilite la migration des projets depuis les plateformes.

L’entreprise signe aussi des accords avec des universités pour la formation. Les étudiants apprennent à manipuler ces calculateurs de nouvelle génération. Cette stratégie assure une réserve de talents pour le futur. Les contrats prévoient des mises à jour des serveurs.

Cerebras Inference services cloud et prix

Le service de calcul en ligne propose des tarifs agressifs. Le coût s’élève en effet à 10 centimes pour un million de jetons. Cette offre défie les prix des fournisseurs de nuage (cloud). Les entreprises accèdent à la puissance du processeur via une interface. L’inscription se fait en ligne avec un crédit de 50 dollars. Cette somme autorise le test des capacités du système immédiatement. Le tableau de bord affiche les statistiques de consommation en temps réel. Les développeurs intègrent cette solution dans leurs applications.

La rapidité de réponse améliore l’expérience des utilisateurs finaux. La sécurité des échanges repose sur un chiffrement de niveau militaire. Aucune donnée ne sort du centre sans une autorisation. La maintenance du matériel s’effectue sans couper l’accès au service. Les clients bénéficient d’une disponibilité de 99,9 % sur l’année. Cette fiabilité attire les banques pour la détection de fraude. Elles analysent les transactions à vive allure pour bloquer les vols. Le service supporte les modèles populaires du marché.

Pour aller plus loin : 👉 Chine vs USA – comprendre la guerre des puces

Position de Cerebras face à ses concurrents directs

NVIDIA Blackwell domine le secteur avec ses processeurs de pointe. Le leader historique maintient une avance technologique considérable sur le marché. Cette architecture utilise des grappes de milliers de petits processeurs. Elle possède un écosystème logiciel très robuste nommé CUDA. Pourtant, la jeune pousse Groq LPU gagne du terrain sur la déduction (inference). Ses circuits spécialisés traitent les données de manière séquentielle.

De son côté, SambaNova Systems propose une plateforme complète de services. Leur puce gravée en 3 nanomètres assure une flexibilité pour les charges variées. Google Cloud déploie également ses propres unités de traitement de tenseurs. Les systèmes TPU v6 équipent exclusivement les centres de données du géant. La concurrence directe se concentre sur le rapport entre prix et performance. La bataille du silicium définit les futurs standards de l’informatique.