Fast moving cars and modern city background. Automobile chip illustration and several icons.

Tesla D1 Dojo, une nouvelle impressionnante pour l’entraînement IA

a dévoilé, ce jour, son circuit intégré spécifique à l'application (ASIC). Baptisé D1 Dojo, celui-ci permettra d'accélérer les charges de travail des logiciels d'IA.  En effet, cette dernière est l'un des principaux outils assurant le bon fonctionnement de l'entreprise ainsi que ses travaux sur les voitures électriques. On notera d'ailleurs que l'intelligence artificielle a connu un énorme bond depuis deux ans maintenant.

ASIC attire les regards des entreprises

Si Tesla a choisi de créer son propre ASIC, c'est parce que la plupart des entreprises qui en créent n'arrivent pas à trouver la bonne formule et encore moins à répondre au besoin de chaque charge de travail. En ce sens, tous les yeux sont aujourd'hui rivés sur les ASIC, que ce soit les petites startups ou les géants comme Baidu, , et .

Avant d'être déployés dans plusieurs applications, les modèles d'IA formés par le superordinateur Dojo, à une partie duquel ressemble la puce, sont d'abord produits pour être distribués dans le siège de Tesla. On notera que la puce D1 résulte des travaux de TSMC. Il a été forgé dans un semi-conducteur de 7mm. Mesurant jusqu'à 645 mm^2, celle-ci emballe jusqu'à 50 milliards de transistors, voire plus.

D1 Dojo, une puce pas comme les autres

Au niveau des performances, la puce D1 impressionne beaucoup. Tesla a surtout mis en exergue sa capacité à produire jusqu'à 362 TeraFLOP avec une précision FP16/CFP8. Avec les tâches FP32, la puce est capable de produire environ 22,6 TeraFLOP. Ayant réussi à prendre le dessus sur le leader actuel de la puissance de calcul – Nvidia, dont le GPU A100 Ampère n'est capable de produire que 312 TeraFLOP seulement pour les charges FP16, il est évident qu'on a optimisé Tesla pour les traitements des données FP16.

L'étude du niveau du silicium a permis de voir la construction d'un maillage d'unités fonctionnelles (UF) par Tesla. Ces UF sont connectées entre elles afin de créer une puce massive. Le processeur 64 bits contenant chaque FU est conçu par l'implémentation d'un scalaire de 4 largeurs avec des pipelines véctoriels de 2 largeurs. Ce processeur avec ISA personnalisé devrait assurer les transpositions, les collectes, les diffusions et les traversées de liens. Apparemment, la construction du FU se fait avec un gros bloc pour les éléments de traitement en virgule flottante et en nombres entiers à instruction unique multiple (SMID). La mémoire SRAM de bloc-note que possède chaque FU est quant à elle de 1,25 Mo.

Le maillage a comme objectif de réduire les latences et augmenter les performances en traversant les FU en un seul cycle d'horloge. D'ailleurs, le FU lui-même a une capacité à effectuer un TeraFLOP de BF16 ou CFP8, 64 GigaFLOPs de calcul FP32 tout en possédant une bande passante de 512 Go/s dans toutes les directions du maillage. La rediffusion de la journée Tesla AI est toujours disponible pour en savoir davantage.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter