Aux dernières nouvelles, Microsoft est sur le point de travailler sur un projet pouvant surpasser un CPU Nvidia Ampere : l’architecture Chiplet Cloud.
Il est donc temps pour Nvidia et AMD de se remettre en question parce que même avec leur position sur le marché de l’IA générative, le projet Chiplet Cloud de Microsoft va tout basculer et faire effondrer le prix de l’IA. Apparemment, ce serait le professeur Shuaiwen Leon Song, accompagné du professeur Michael Taylor qui sont à la tête du projet, du moins jusqu’à preuve du contraire. Étant donné que Song vient de rejoindre Microsoft au mois de janvier dernier.
Une nouvelle variété de puces pour réduire le prix de production de l’IA
Au cours des dernières semaines, plusieurs billets de blogs ont abordé la question du coût considérable lié à la construction de systèmes capables de faire fonctionner des modèles d’IA génératifs basés sur des transformateurs. Un d’entre eux a fourni une excellente explication quant aux raisons pour lesquelles des entreprises telles qu’Amazon Web Services, Meta Platforms et Google cherchent à développer leurs propres GPU. Cela afin de réduire le coût de l’inférence et de la latence de l’IA plus abordable. Il est fort probable que Microsoft partage cette vision.
Mais le plus gros problème des GPU, qu’ils soient de Nvidia ou d’autres fabricants, est qu’ils sont conçus pour être des appareils polyvalents. Il s’agit donc d’un type d’appareil à usage général. À ce titre, les GPU actuels doivent prendre en charge une large gamme de calculs pour répondre à divers cas d’utilisation.
Une baisse du coût de 15 fois pour 1 000 tokens grâce à l’architecture Chiplet Cloud
L’intégration de grands modèles de langage tels que ChatGPT dans différentes technologies existantes, comme la recherche sur le Web, soulève des questions concernant leur évolutivité et leur rentabilité. Par exemple, Google a la capacité de traiter plus de 99 000 requêtes par seconde. Si GPT-3 est utilisé pour chaque requête, et en supposant que chaque requête génère 500 tokens, Google aurait besoin de plus de 340 000 serveurs Nvidia DGX (2 726 000 GPU A100) pour suivre le rythme. Or, le prix de ces GPU dépasserait les 40 milliards de dollars, rien qu’en termes d’investissement. Par ailleurs, il y aura également une surconsommation d’énergie. Et le concept théorique du Chiplet Cloud démontre une réduction de 15,2 fois du coût par 1 000 tokens générés lors de l’exécution de l’inférence, ainsi qu’une baisse de 19,5 fois quant à la latence.
Dans tous les cas, le Chiplet Cloud va optimiser le coût par token de manière significative tout en maintenant une latence raisonnable. Il est clair que l’architecture du Chiplet Cloud pourrait réduire légèrement la latence si les clients sont prêts à payer un coût relativement plus élevé pour ces améliorations.
- Partager l'article :