intelligence artificielle microsoft nvidia

Microsoft et Nvidia s’associent pour créer l’IA de langage la plus puissante

Microsoft et Nvidia viennent de repousser les limites du Traitement Naturel du Langage, avec le modèle IA MT-NLP. Cette nouvelle intelligence artificielle de langage est la plus puissante à ce jour.

L’intelligence artificielle offre déjà de nombreuses possibilités. Pourtant, il ne s’agit que d’un début. Les géants chinois et américains investissent massivement dans l’entraînement d’IA toujours plus performantes, et repoussent sans cesse les limites de cette technologie révolutionnaire.

Aujourd’hui, c’est au tour de Microsoft et Nvidia d’annoncer avoir réussi à entraîner le modèle IA de langage le plus performant à ce jour. Il s’agit du Megatron-Turing Natural Language Generation (MT-NLP), successeur des modèles Turing NLG 17B et Megatron-LM.

Ce nouveau modèle contient 530 milliards de paramètres. Il offre une précision inégalée à ce jour sur une large variété de tâches de NLP (Traitement Naturel du Langage). Cette IA est notamment capable de comprendre des textes et de faire preuve de sens commun.

Selon Ali Alvi, manager de l’équipe Microsoft Turing,  » la qualité et les résultats obtenus sont un grand pas en avant vers le déblocage du potentiel de l’IA pour le langage naturel. Les innovations de DeepSpeed et Megatron-LM profiteront aux développements de modèle IA actuel et futur, et rendront les larges modèles IA moins chers et plus rapides à entraîner « .

Une IA entraînée sur 560 serveurs Nvdia DGX A100

Dans le domaine du Machine Learning, les paramètres sont la partie du modèle IA ayant appris à partir de données historiques. La corrélation entre le nombre de paramètres et les performances est particulièrement prononcée dans le domaine du langage.

Plus le nombre de paramètres est élevé, plus le temps d’entraînement est long, et plus l’IA est capable de comprendre les nuances et les subtilités du langage. Elle sera par exemple capable de résumer des livres ou de compléter un code de programmation.

Afin d’entraîner MT-NLG, Microsoft et Nvidia ont créé un ensemble de données d’entraînement comportant 270 milliards de tokens en provenance de sites web en langage anglais. Les tokens sont des échantillons de textes. Il peut s’agir de mots, de caractères, ou de syllabes. Comme tous les modèles IA, MT-NLP a été entraîné en ingérant un ensemble d’exemples afin d’apprendre les patterns entre les points de données, comme les règles grammaticales et syntaxiques.

Les données du dataset proviennent principalement de  » The Pile «  : une collection de 835 GB de 22 ensembles de données plus petits, créés par Eleuther AI. Cette collection rassemble des sources académiques comme Arxiv et PubMed, des sources communautaires comme StackExchange et Wikipedia, des dépôts de code comme GitHub et plus encore.

Par la suite, Microsoft et Nvidia ont ajouté des snapshot de Common Crawl qui réunit de nombreuses pages web en provenance d’articles d’actualité ou de publications sur les réseaux sociaux. Pour mener à bien cet entraînement, il a fallu 560 serveurs Nvidia DGX A100 contenant chacun 8 GPU Nvidia A100 de 80GB.

Au-delà de la mémorisation, MT-NLP parvient à compléter des tâches contenant des questions nécessitant une réponse. Il s’agit d’un défi majeur dans le domaine du traitement naturel du langage.

La lutte contre le biais algorithmique

L’un des principaux défauts des modèles de NLP est qu’ils héritent des biais contenus dans les données sur lesquelles ils sont entraînés. Pour MT-NLP, Microsoft et Nvidia confirment que le modèle a repris  » les stéréotypes et biais provenant des données d’entraînement « . Il peut s’agir de préjugés sur le genre, la race, le physique ou la religion.

Les deux entreprises cherchent un moyen de résoudre ce problème, et encouragent les chercheurs à quantifier les biais de leur modèle. Elles précisent par ailleurs que toute utilisation de Megatron-Turing doit prendre des mesures pour minimiser les dégâts potentiels liés à ces biais.

Entraînement IA : les GAFAM indétrônables ?

Entraîner des modèles IA surpuissants a un coût, et ce coût est massif. Des projets comme MT-NLP, Jurassic-1 par AI21 Labs, PanGu-Alpha de Huawei, HyperCLOVA de Naver ou Wu Dao 2.0 par la Beijing Academy of Artificial Intelligence ont nécessité des budgets colossaux.

L’intelligence artificielle GPT-3 d’OpenAI a été entraînée sur un ensemble de données de 45 Terabytes. C’est assez de données pour remplir 90 disques durs de 500Gb.

Elle a également eu besoin d’une puissance de calcul estimée à 3.1423^23 FLOPS. Si OpenAI a réservé 28 teraflops de puissance sur le Cloud, en exploitant des GPU Nvidia V100, chaque itération d’entraînement a coûté 4,6 millions de dollars. Utiliser des GPU Nvidia RTX 8000 pour 15 Teraflops serait moins cher, mais l’entraînement durerait 665 ans.

De leur côté, Nvidia et Microsoft ont observé entre 113 et 126 Teraflops par seconde et par GPU pendant l’entraînement de MT-NLP. L’opération a donc probablement coûté plusieurs millions de dollars.

Les chercheurs de l’Université de Washington ont dépensé 25 000 dollars pour entraîner un modèle de détection de fake news, et Google a dépensé 6912 dollars pour entraîner le modèle BERT afin d’améliorer la qualité des résultats de recherche web.

Le stockage de données d’entraînement peut également coûter très cher. Par exemple, le dataset utilisé par Tesla pour ses voitures autonomes pèse 1,5 petabyte de capture vidéo. Pour le stocker sur le Cloud de Microsoft Azure pendant trois mois, cela coûterait plus de 67 000 dollars.

Certes, le coût d’entraînement de l’IA a été divisé par 100 entre 2017 et 2019. Toutefois, il reste largement hors de portée de la plupart des startups. Ainsi, seules les plus grandes entreprises telles que les GAFAM sont en mesure de financer de tels projets. En résulte une inégalité profonde, un fossé qui se creuse entre les corporations et les petites entreprises.

Un impact dévastateur sur l’environnement

Outre le coût financier, les inquiétudes grandissent concernant l’impact de l’entraînement IA et Machine Learning sur l’environnement. En juin 2020, un rapport des chercheurs de l’Université du Massachussets révèle que l’entraînement ‘un modèle à lui seul émet plus de 200 000 kilos de dioxyde de carbone. C’est cinq fois l’émission d’une voiture américaine moyenne, sur tout son cycle de vie.

De même, OpenAI a confirmé qu’un modèle comme Codex requiert plusieurs centaines de petaflops par jour. Fort heureusement, la puissance nécessaire pour entraîner un modèle diminue au fil du temps. Un sondage mené en 2020 révèle que la puissance requise pour entraîner un modèle sur ImageNet a été divisée par deux tous les 16 mois depuis 2012.

De nouvelles techniques permettent aussi d’entraîner les IA à moindre coût, y compris pour les modèles les plus massifs. Au cours des prochaines années, le défi à relever sera de réduire l’impact de l’entraînement de l’intelligence artificielle sur l’environnement, et de le rendre accessible aux entreprises les plus modestes afin de libérer tout le potentiel de cette technologie et stimuler l’innovation…

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Pin It on Pinterest