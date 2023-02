IBM révolutionne l’industrie de l’IA avec un superordinateur puissant et abordable sur son cloud. Grâce à cette technologie innovante, les entreprises de toutes tailles peuvent désormais accéder à des capacités de calcul avancées pour un coût abordable.

Dans un monde de plus en plus tourné vers l’intelligence artificielle, les superordinateurs IA sont devenus des outils indispensables pour traiter des quantités massives de données et des tâches complexes. Toutefois, ces machines coûteuses étaient jusqu’à présent réservées aux grandes entreprises disposant de moyens financiers importants. IBM a décidé de changer cela en développant un superordinateur IA à bas coût sur son Cloud.

Vela : le superordinateur économique et performant d’IBM

IBM a conçu un superordinateur de classe capacité appelé « Vela » sur son cloud. La machine utilise des composants de seconde main pour minimiser les coûts tout en offrant des performances de pointe. Bien que la machine ait été opérationnelle depuis l’année dernière, IBM n’a commencé à la promouvoir que récemment.

En outre, les performances de Vela n’ont pas encore été soumises à la liste des supercalculateurs Top500. Pourtant, elle est capable d’atteindre une performance théorique maximale de 27,9 pétaflops.

La société a choisi des composants spécifiques pour Vela. Cela permettra de déployer des clones de la machine dans n’importe quel Data Center de son réseau mondial. Contrairement aux machines HPC traditionnelles, ce supercalculateur n’utilise pas les dernières technologies de Nvidia ou AMD. En effet, IBM compte maximiser les bénéfices de sa branche de recherche tout en offrant des capacités de calcul avancées à un coût abordable.

IBM : les spécifications impressionnantes de son superordinateur Vela

Le superordinateur Vela d’IBM utilise une configuration standard de nœuds de serveur pour permettre une utilisation efficace des ressources dans le cloud. Les nœuds sont équipés de huit GPU Nvidia A100 avec une mémoire empilée HBM2e de 80 Go, ainsi que deux processeurs Intel « Cascade Lake » de 24 cœurs chacun, avec 768 Go de mémoire principale.

La matrice NVSwitch intégrée à la carte système HGX de Nvidia permet aux GPU de partager une mémoire de type NUMA. Un commutateur PCI-Express connecte chaque paire de GPU à un CPU par le biais d’une carte d’interface réseau Ethernet avec un débit de 100 Gb/sec et deux ports.

Le stockage local dans le nœud est assuré par un quadruple disque flash NVM-Express de 3,2 To, pour un total de 12,8 To. Les nœuds sont reliés en topologie Clos à deux niveaux, avec chaque rack relié à une banque de quatre commutateurs dorsaux pour fournir une bande passante de 1,6 To entre les racks.

IBM a choisi d’utiliser Ethernet pour le réseau de Vela pour assurer la standardisation dans le cloud. De plus, six nœuds sont présents dans chaque rack pour maintenir des densités thermiques raisonnables.

Vela : une machine virtuelle performante et sans compromis

Ce superordinateur Vela d’IBM permet de fournir des performances proches de celles d’une machine physique nue à l’intérieur d’une machine virtuelle (VM). Pour y parvenir, l’équipe d’IBM a mis en place une accélération matérielle VXM complète pour la virtualisation des serveurs d’Intel avec les processeurs Xeon SP. La virtualisation d’E/S à racine unique (SR-IOV) a également été mise en place pour gérer les E/S de stockage et de NIC virtuelles dans l’hyperviseur KVM et les NIC physiques.

Afin de réduire au minimum les pertes de performance causées par la virtualisation, les chercheurs ont veillé à ce que toutes les ressources du nœud soient disponibles pour la VM. L’objectif était de garantir que l’overhead de virtualisation reste inférieur à 5 %, un chiffre qui, selon eux, est le plus bas de l’industrie.

Les configurations matérielles et logicielles ont également été fidèlement représentées, notamment la connectivité des cartes réseau, des CPU et des GPU, ainsi que la connectivité entre les GPU. De plus, l’usage de SR-IOV implique que toutes les fonctionnalités du nuage privé virtuel (VPC) sont mises à disposition des machines virtuelles opérant sur Vela.