Google a créé une IA à un milliard de paramètres, 6 fois plus que GPT-3

Un trio de chercheurs de l’équipe Google Brain a récemment dévoilé la prochaine grande nouveauté dans les modèles de langage IA. Il s’agit d’un système de transformateur massif d’un milliard de paramètres. Le prochain modèle le plus important serait le GPT-3 d’OpenAI, qui utilise quelque 175 milliards de paramètres.

Le contexte

Les modèles de langage sont capables d’exécuter diverses fonctions, la  plus populaire étant peut-être la génération de nouveaux textes. Par exemple, vous pouvez parler à un modèle de langage « philosophe IA » qui tentera de répondre à toutes les questions que vous lui posez (avec de nombreuses exceptions notables).

Bien que ces incroyables modèles d’IA existent à la pointe de la technologie d’apprentissage automatique, il est important de se rappeler qu’ils ne sont essentiellement que des astuces. Ces systèmes ne comprennent pas la langue, ils sont juste affinés pour donner l’impression qu’ils le font.

C’est là que le nombre de paramètres entre en jeu. Plus il y a de boutons et de molettes virtuels que vous pouvez tourner et régler pour obtenir les sorties de données souhaitées, plus vous avez le contrôle sur cette sortie.

Ce que Google a fait

En termes simples, l’équipe Brain a trouvé un moyen de rendre le modèle aussi simple que possible tout en utilisant autant de puissance de calcul brute que possible. Ceci pour rendre possible l’augmentation du nombre de paramètres. Google a les moyens d’utiliser autant de matériel de calcul que le modèle d’IA peut imaginer.

Les Switch Transformers sont des apprenants de langue naturelle évolutifs et efficaces. L’équipe a simplifié le modèle Mixture of Experts pour produire une architecture facile à comprendre, stable à entraîner et bien plus efficace en échantillonnage que les modèles denses de taille équivalente. 

Le constat : ces modèles excellent dans un ensemble diversifié de tâches en langage naturel et dans différents régimes de formation, y compris la pré-formation, la mise au point et la formation multi-tâches. Ces avancées permettent de former des modèles avec des centaines de milliards à des milliers de milliards de paramètres et qui réalisent des améliorations substantielles par rapport aux lignes de base T5 denses.

Conduire à de meilleures techniques d’utilisation de calcul 

On ne sait pas exactement ce que cela signifie ou ce que Google a l’intention de faire avec les techniques telles qu’elles sont décrites. Ce modèle ne se résume pas à un OpenAI unique. Comment exactement Google ou ses clients pourraient utiliser le nouveau système. Cela reste un peu flou.

L’idée principale est qu’une force brute suffisante conduira à de meilleures techniques d’utilisation de calcul qui permettront à leur tour de faire plus avec moins de calcul. Mais la réalité actuelle est que ces systèmes n’ont pas tendance à justifier leur existence par rapport à des technologies plus vertes et plus utiles. 

Il est difficile de proposer un système d’IA qui ne peut être exploité que par des entreprises de technologie d’un milliard de dollars prêtes à ignorer l’énorme empreinte carbone créée par ce système.