tesla dojo - elon musk + chipset

Qu’est-il arrivé à Tesla Dojo, le supercalculateur d’IA d’Elon Musk ?

Tesla Dojo, le supercalculateur IA aux ambitions exaflop, n’a pas survécu à 2025 : Elon Musk l’a qualifié d’“impasse évolutive” avant de le dissoudre. Derrière cette fin brutale se dessine une vision radicale de l’intelligence artificielle, de la conduite autonome et de la robotique. Etes-vous prêts à découvrir les coulisses d’un projet aussi ambitieux que controversé ?

YouTube video

Qu’est-ce que Tesla Dojo ?

Tesla Dojo est avant tout un supercalculateur d’IA spécifiquement conçu par la multinationale Tesla pour l’entraînement intensif de ses réseaux neuronaux. Son rôle consistait donc à traiter les millions de térabytes de données vidéo collectées par la flotte de véhicules. L’architecture repose sur la puce propriétaire D1 chip, gravée en 7 nanomètres par TSMC. Ces processeurs s’interconnectent pour former des unités modulaires appelées Training Tiles. Ces unités sont finalement regroupées dans des systèmes appelés ExaPod. L’objectif fondamental était ainsi d’accélérer le neural network training et d’optimiser le coût total de possession (TCO).  

En 2024, le principal environnement de calcul de Tesla reste surtout le cluster Cortex. Ce dernier est majoritairement basé sur des GPU Nvidia. La capacité opérationnelle de Dojo équivalait à environ 7 500 GPU H100 au printemps de la même année. Cependant, Tesla a pris la décision de dissoudre l’équipe Dojo en août 2025. Ce pivot stratégique favorise la nouvelle feuille de route chiplet AI6, destinée à devenir le futur training cluster interne. Cette nouvelle approche abandonne la rigidité du D1 pour des architectures plus flexibles et open source.  

Tesla Dojo cède la place à une autre technologie

L’architecture matérielle de la puce D1 est un circuit intégré construit sur un nœud 7 nm. Chaque puce contient ainsi 50 milliards de transistors. Elle intègre 354 cœurs de calcul, chacun possède 1,25 mégabyte de mémoire statique ou SRAM. Cette conception priorise notamment la mémoire ultra-rapide sur puce au détriment de la mémoire externe DRAM conventionnelle. Les cœurs sont aussi reliés par un Network on-Chip (NoC) forment une grille bidimensionnelle. Ceci assure, entre autres, une faible latence dans la communication entre les unités de calcul.  

L’assemblage ultime de Dojo était l’ExaPod, conçu pour regrouper 120 Training Tiles. Chaque Tile embarque 25 puces D1. Elles atteignent 9 pétaflops en précision mixte BF16 ou CFloat8. Le débit d’interconnexion au niveau du Tile s’élève à 36 Tbit/s sur les bords. Cette densité de calcul visait l’ambition initiale d’une performance exaflop pour l’entraînement de l’intelligence artificielle. Tesla affirmait que cette conception offrait un TCO réduit par unité de performance comparé aux systèmes Nvidia A100.  

YouTube video

Supercalculateur avec davantage de puissance

Quoi qu’il en soit, Tesla Dojo exigeait un compiler stack logiciel entièrement nouveau. Ce toolchain devait gérer l’entraînement des réseaux neuronaux sans utiliser de langages comme C ou C++. Il contournait aussi l’utilisation du standard CUDA. Tesla a développé des formats de mixed precision configurables. Ils incluent notamment CFloat8 et CFloat16. Ces formats personnalisés permettent au compilateur d’ajuster dynamiquement la précision du calcul. Le faible ratio mémoire/calcul du D1 a rendu ces formats de précision critiques.  

Le cluster Cortex de Tesla avec des GPU cluster Nvidia H100, a absorbé la majorité des charges de travail d’entraînement. Ce système externe a garanti la progression de l’IA malgré les défis de mise au point de Dojo. La nouvelle puce AI6, successeur de Dojo, sera construite sur le nœud 2 nm. La puce AI5 utilisera le nœud 3 nm (N3E) de TSMC. Tesla et Samsung ont conclu un accord de 16,5 milliards de dollars pour la fabrication de ces puces en chiplet.  

Les différentes phases de l’évolution de Tesla Dojo

L’histoire de Tesla Dojo se décompose en quatre phases distinctes. D’abord annoncé comme le plus puissant de son temps, ce supercalculateur d’Elon Musk évolue d’une annonce audacieuse à une dissolution stratégique.

L’annonce et la vision initiale (2019–2021)

Le concept de Dojo est apparu dès 2019, mais a seulement été révélé au grand public lors de l’AI Day en août 2021. L’équipe recherches et développement de Tesla a notamment positionné ce supercalculateur comme le moteur indispensable au traitement des vastes quantités de fleet data. La vision d’Elon Musk était alors de créer une infrastructure pour le Full Self-Driving capable d’atteindre le niveau exaflop de performance. L’entreprise visait aussi à surpasser les solutions Nvidia en termes d’efficacité énergétique et de réduction du TCO. Cette annonce marquait ainsi l’intention de Tesla d’assurer une intégration verticale complète du matériel d’entraînement de l’IA.  

L’architecture D1 a également suscité l’enthousiasme pour ses spécifications audacieuses (faible latence, interconnexion massive). Une part importante de la communauté technique a surtout exprimé son scepticisme. Les analystes s’interrogeaient sur les défis du compiler stack propriétaire. Ils pointaient, en effet, le faible ratio mémoire/calcul du D1. Les promesses de performance et de TCO presque un ordre de grandeur meilleur restaient par ailleurs difficiles à prouver.  

Les premiers déploiements (2022–2023)

En septembre 2022, Tesla a confirmé avoir assemblé les premiers System Trays et un Cabinet fonctionnel. L’entreprise travaillait alors à une cadence d’environ un Training Tile par jour. Un test initial a révélé une consommation électrique très élevée. Il a tiré 2,3 mégawatts et a provoqué la coupure d’un poste électrique à San Jose. L’objectif fixé pour le premier trimestre 2023 était l’installation du premier ExaPod complet. Dojo est officiellement entré en production pour l’entraînement en juillet 2023.  

Les ingénieurs ont mis en avant la densité supérieure de Dojo. Ils affirmaient que quatre Cabinets équivalaient à 72 racks GPU pour la fonction d’autolabeling. Malgré les gains de densité, le Dojo en 2023 ne représentait qu’une fraction de la puissance de calcul totale de Tesla. La multinationale utilisait déjà un cluster massif (maintenant appelé Cortex) avec des milliers de GPU A100. Le déploiement réel du Dojo est resté minime par rapport aux besoins totaux de l’entreprise en calcul intensif.  

L’ombre de Cortex (2024)

Au cours de l’année 2024, les rapports d’analystes ont souligné l’accélération des commandes de GPU Nvidia par Tesla. Tesla a massivement augmenté son cluster Cortex avec des puces H100. Cette capacité a porté la puissance totale bien au-delà de la contribution de Dojo. En avril 2024, il a été estimé que Dojo ne représentait qu’environ 7 500 équivalents H100. Cela ne représentait que 25 % de la capacité totale de Tesla.  

Cette dépendance accrue aux puces Nvidia est devenue évidente et contredit la philosophie initiale. L’acquisition coûteuse de matériel externe fut interprétée comme un signe des difficultés d’industrialisation de l’architecture maison. Les communications publiques de Tesla ont réduit les mentions de Dojo. L’accent était mis sur la croissance rapide du GPU cluster pour soutenir l’entraînement de la robotique Optimus. Des rumeurs ont commencé à circuler concernant des départs au sein de l’équipe d’ingénierie centrale du supercalculateur.  

La dissolution de l’équipe (2025)

En août 2025, la dissolution du projet Tesla Dojo a été confirmée. Le responsable clé du projet, Peter Bannon, a quitté l’entreprise. Environ 20 ingénieurs et architectes seniors ont suivi leur chef. Ils ont fondé la startup DensityAI. Cette nouvelle entreprise se concentre sur les infrastructures d’IA spécialisées pour les systèmes autonomes.  

Elon Musk a publiquement confirmé la fermeture du projet Dojo. Il justifie la décision et affirme que Dojo 2 représentait désormais une “impasse évolutive”. Le dirigeant a expliqué qu’il n’était pas logique de diviser les ressources sur deux conceptions distinctes. Tous les efforts sont désormais concentrés sur le développement et la mise à l’échelle des architectures AI5 et AI6. Ces nouvelles architectures, avec des nœuds de gravure plus avancés, sont jugées plus pragmatiques.  

Tesla Dojo

Exemples d’utilisation de Tesla Dojo

Puissance de calcul indispensable aux voitures autonomes

Tesla Dojo a été conçu comme l’outil principal pour l’entraînement des réseaux neuronaux du système Full Self-Driving (FSD). Il gère le traitement massif des fleet data, collectées par la flotte mondiale de véhicules. Ceci inclut le re-training des 48 réseaux neuronaux nécessaires au système Autopilot. Les algorithmes traitent les flux vidéo bruts pour effectuer la segmentation sémantique et l’estimation de profondeur. L’entraînement ciblé pousse à réduire le temps de latence des mises à jour des modèles d’autonomous driving.  

L’architecture d’entraînement est également utilisée pour le développement du robot humanoïde Optimus. Dojo devait aider à entraîner les modèles pour la navigation et le motion planning du robot. La nécessité d’une IA capable de percevoir et d’interagir avec le monde physique requiert un entraînement vidéo intense. Les avancées en FSD sont directement transférables aux systèmes de contrôle d’Optimus. Les modèles entraînés permettent au robot d’apprendre des tâches complexes, illustrées par des démonstrations d’aptitudes physiques.

Une technologie utile aux modèles d’intelligence artificielle 

Dojo servait à la recherche et à l’expérimentation sur des modèles d’IA plus généraux. Tesla utilise cette infrastructure pour développer des systèmes d’multimodal AI. Le supercalculateur soutenait les environnements de simulation et de validation de scénarios complexes pour l’autonomie. Ces travaux internes visent à doter l’IA de capacités de raisonnement au-delà des tâches de perception de base. La concentration sur l’IA réelle pour le monde physique rend le training cluster essentiel.  

Le projet Dojo était une vitrine d’innovation majeure pour attirer des experts en AI research et ingénierie matérielle. Le développement d’une architecture sur mesure témoigne de l’engagement de Tesla dans la R&D fondamentale. L’expertise acquise dans le design chiplet et les interconnexions est réutilisée dans l’AI5 et l’AI6. L’infrastructure sert de laboratoire pour tester de nouveaux paradigmes de calcul distribué.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥