La nouvelle IA de Meta apprend à partir de textes, d’images et d’audio

Bastien L. 21 janvier 2022 3 minutes de lecture Intelligence artificielle

La nouvelle intelligence artificielle de Meta, data2vec, est capable d’apprendre à partir de données sous forme de texte, d’images ou d’audio. Cette nouvelle approche pourrait paver la voie vers une IA généraliste digne du cerveau humain…

L’humain parviendra-t-il à créer une IA générale ? Une intelligence artificielle aussi versatile et flexible que le cerveau humain ?

Au fil des dernières années, de nombreuses avancées ont été réalisées dans le domaine de l’IA. Toutefois, même les réseaux de neurones les plus évolués sont limités à une tâche unique.

Par exemple, l’IA de langage GPT-3 d’Open AI est spécialisée dans la génération de texte. Elle n’est pas capable de créer des images à partir de texte, contrairement à l’IA GauGAN de Nvidia.

Les chercheurs de Meta (Facebook) travaillent sur une intelligence artificielle plus polyvalente. Cette nouvelle IA est capable d’apprendre de manière autonome aussi bien sur du matériel visuel, écrit ou oral.

Pour mieux comprendre l’importance de cette innovation, revenons sur le processus de Machine Learning. Pour entraîner une IA, on la nourrit avec de vastes volumes de données étiquetées. Grâce à ce processus, elle apprendra par exemple à reconnaître une photo de chats, à comprendre un texte ou même à distinguer des voix.

À l’issue de cet entraînement, l’IA est en mesure d’appliquer son apprentissage à de nouvelles données. Elle pourra donc reconnaître des chats sur n’importe quelle photo, comprendre de nouveaux textes, ou distinguer des voix dans un discours. Elle n’a désormais plus besoin d’étiquettes, et peut donc être implémentée à des applications pratiques.

Le Machine Learning n’est plus adapté aux IA les plus modernes

Toutefois, cette approche n’est plus en vogue. Les chercheurs ont réalisé qu’il n’est plus envisageable de créer manuellement des bases de données suffisamment vastes pour entraîner les IA de nouvelle génération. Il semble en effet compliqué d’étiqueter une par une plusieurs centaines de millions de photos de chats.

Parmi les IA les plus récentes, certaines sont » self-supervised » (auto-supervisées). Ce type de modèle peut apprendre à partir de larges volumes de données non-étiquetées telles que des livres ou des vidéos de discussions entre des personnes.

Elles peuvent ensuite développer leur propre compréhension structurée des règles du système. Par exemple, en lisant des milliers de livres, une IA peut comprendre la structure grammaticale sans avoir besoin d’étiquettes. Elle se charge de tirer ses propres conclusions.

Cette méthode se rapproche davantage de la façon dont l’humain apprend. C’est l’une des raisons pour laquelle les chercheurs l’apprécient. Toutefois, les modèles entraînés ainsi restent mono-fonctionnels. Une IA entraînée à la reconnaissance de discours ne sera par exemple pas capable d’appliquer son apprentissage à l’analyse d’image.

data2vec s’inspire du processus d’apprentissage humain

Avec son projet data2vec, Meta entend changer la donne. Ce projet vise à créer un framework IA capable d’apprendre de manière abstraite et indistincte à partir de textes, d’images ou même de discours oral.

Lors de tests menés après un entraînement sur diverses données, data2vec s’est révélée plus performante que des modèles de taille similaire entraînés sur un seul type de données et pour une modalité unique.

Dans un billet publié sur le blog de Meta, l’équipe de chercheurs explique que l’idée centrale de cette approche est un apprentissage plus général. À leurs yeux, « l’IA devrait être capable d’apprendre à effectuer de nombreuses tâches différentes, y compris celles qui lui sont entièrement inconnues » .

En outre, les chercheurs espèrent que data2vec les rapprochera » d’un monde où les ordinateurs auront besoin de très peu de données étiquetées pour accomplir des tâches « .

Le célèbre CEO de Meta, Mark Zuckerberg, s’est également exprimé sur ce projet de recherche. Selon lui, « les humains expérimentent le monde à travers une combinaison d’images, de sons et de mots. Les systèmes comme celui-ci pourraient un jour comprendre le monde de la manière dont nous le faisons « …

Ce projet est prometteur pour le futur de l’IA, mais soulignons qu’il n’en est encore qu’à ses débuts. Une IA générale ne va pas émerger du jour au lendemain, mais cette structure d’apprentissage généralisée compatible avec une large variété de domaines et de types de données semble plus pertinente que celle employée jusqu’alors…

Si vous souhaitez explorer ou entraîner data2vec par vous-même, le code est disponible en open source. Vous pouvez y accéder à cette adresse, accompagné de différents modèles pré-entraînés.

https://www.youtube.com/watch?v=k3G40SX6lKQ