deepmind gopher

DeepMind Gopher : après OpenAI et Microsoft, Alphabet dévoile son IA de langage

DeepMind Gopher est un modèle d’intelligence artificielle de langage développé par Alphabet. Fort de 280 milliards de paramètres, ce modèle IA se place parmi les champions du domaine. Il surpasse OpenAI GPT-3, mais reste inférieur à Megatron développé par Nvidia et Microsoft.

L’intelligence artificielle est en plein essor, mais certaines branches se développent particulièrement vite. Actuellement, la génération de langage est sous le feu de projecteurs.

Les systèmes de type  » larges modèles de langage  » (LLM) sont utilisés pour de nombreux cas d’usage. Par exemple, Google s’en sert pour améliorer son moteur de recherche web. Autre exemple : le jeu  » AI Dungeon «  repose sur le modèle OpenAI GPT-2 pour générer des jeux de rôle au format texte.

Toutefois, ces modèles d’IA ont aussi d’importantes limites. Parmi les principaux problèmes, on déplore les biais racistes et sexistes de ces systèmes d’intelligences artificielles.

Les chercheurs de DeepMind, le laboratoire IA d’Alphabet, viennent de publier trois études. Ils cherchent notamment à savoir si les limites de ce paradigme technologique ont été atteintes, ou s’il est possible de remédier aux faiblesses de ce modèle en ajoutant des données et de la puissance de calcul.

Leur conclusion est qu’un  » scale up  » de ces systèmes permettrait de nombreuses améliorations. Le chercheur Jack Rae révèle notamment que les capacités des larges modèles de langage continuent à augmenter. Nous n’avons pas encore atteint le plateau.

DeepMind Gopher : un modèle de langage à 280 milliards de paramètres

Afin de vérifier les capacités des LLM, DeepMind a développé Gopher : un modèle de langage avec 280 milliards de paramètres. Pour rappel, les paramètres permettent de mesurer la taille et la complexité d’un modèle de langage.

En d’autres termes, Gopher est plus large que OpenAI GPT-3 et ses 175 milliards de paramètres. Il n’est toutefois pas aussi large que des systèmes expérimentaux comme le modèle Megatron développé par Microsoft et Nvidia à 530 milliards de paramètres.

De manière générale, les modèles d’intelligence artificielle plus larges offrent de meilleures performances. L’étude de DeepMind confirme cette tendance, et suggère que le scaling des modèles de langage offre des performances améliorées sur les principaux benchmarks comme l’analyse de sentiment ou la récapitulation.

Pour parvenir à ces conclusions, les chercheurs de DeepMind ont évalué une large variété de modèles de langage de différentes tailles. Ils les ont mis à l’épreuve sur 152 tâches de langage ou benchmarks.

C’est ce qui leur a permis de découvrir que les modèles les plus larges délivrent généralement des résultats améliorés. Le modèle Gopher lui-même offre des performances exceptionnelles sur 80% des tests.

DeepMind met en lumière les risques et limites des IA de langage

Toutefois, les chercheurs attirent aussi l’attention sur des problèmes inhérents aux modèles de langage qui nécessiteront davantage que des données et de la puissance de calcul. Certes, cette extension suffit pour améliorer les performances d’une IA.

En revanche, pour d’autres catégories de problèmes comme les biais, le scale up n’est pas suffisant et les modèles de langages devront recevoir un entraînement additionnel. Un feedback des utilisateurs humains pourra par exemple être d’un précieux secours.

Dans une autre étude, DeepMind passe en revue les risques liés au déploiement de larges modèles de langages. Parmi les dangers, on compte l’utilisation d’un langage toxique, la capacité à partager de fausses informations, ou le risque d’une utilisation à mauvais escient comme le partage de spams et de propagande.

Ces problèmes prendront de l’importance à mesure que les modèles de langages IA seront déployés à grande échelle, par exemple en tant que chatbots ou agents de vente.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Pin It on Pinterest