Un co-auteur de « Attention Is All You Need » réfléchit à la surprise de ChatGPT et au conformisme de Google.
Huit chercheurs en apprentissage automatique de Google ont diffusé un document de recherche révolutionnaire intitulé « Attention Is All You Need ». Il s’agit d’un document dans lequel on retrouve la présentation de l’architecture Transformer AI qui sous-tend la plupart des modèles d’IA générative de premier plan d’aujourd’hui.
Le transformer, un élément clé de la prolifération de l’IA moderne
L’essor de l’IA moderne a été rendu possible grâce au Transformer en traduisant des blocs de données d’entrée nommés « jetons » en une autre forme de sortie souhaitée à l’aide d’un réseau neuronal.
Des modèles de langage comme GPT-4o et ChatGPT sont alimentés par des variantes de l’architecture. C’est aussi le cas pour des modèles de synthèse audio qui fabriquent NotebookLM de Google et Advanced Voice Mode d’OpenAI et des modèles de synthèse vidéo à l’image de Sora ou encore des modèles de synthèse d’images comme Midjourney.
À l’occasion du TED AI 2024 en octobre, l’un de ces huit chercheurs, Jakob Uszoreit, a réalisé un entretien avec Ars Technica sur la création des transformateurs. Il s’agit des premiers travaux de Google sur les grands modèles de langage ainsi que son aventure inédite dans l’informatique biologique.
L’interview a permis de savoir que même si son équipe chez Google avait de grands espoirs quant au potentiel de la technologie, elle n’avait pas réellement devancé son rôle central dans des produits comme ChatGPT.
« Attention Is All You Need », un coup d’envoi pour l’IA moderne ?
Selon Jakob Uszkoreit, à cette époque, il a proposé dans l’article « Attention Is All You Need » qu’il est possible de remplacer les réseaux neuronaux récurrents dans les modèles de transduction de séquences dominantes de l’époque par le mécanisme d’attention, ou encore d’auto-attention. Cela a effectivement contribué à proposer des modèles plus efficaces et par conséquent, plus efficaces.
Il affirme que cet article n’est pas seulement un article « c’est une longue série de travaux de certains d’entre nous et de beaucoup d’autres qui ont conduit à cela », a-t-il affirmé.
« C’est un travail de longue haleine avec beaucoup, beaucoup plus de choses, et je ne parle que de mon groupe », ajoute Uszkoreit.
« Pensions-nous que cela jouerait un rôle dans la mise en place, ou du moins en apparence, dans l’activation d’un commutateur, en ce qui concerne des produits comme ChatGPT ? Je ne le pense pas. Je veux dire, pour être très clair en ce qui concerne les LLM et leurs capacités, même à l’époque où nous avons publié l’article, nous avons vu des phénomènes assez stupéfiants ».
Il pense aussi que s’ils n’ont pas réussi à faire connaître les modèles au grand public c’est en partie à cause d’une certaine forme de conservatisme à l’époque chez Google.
Alors, qu’en pensez-vous de cette révélation de Jakob Uszkoreit ? Partagez-vous son avis ? N’hésitez pas à vous exprimer dans les commentaires !
- Partager l'article :