rétrospective 2022

2022, l’avènement de l’ère de l’IA ? Rétrospective d’une année folle, de DALL-E à ChatGPT

Tout au long de 2022, l’intelligence artificielle était sous le feu des projecteurs. De DALL-E à ChatGPT en passant par MidJourney, l’IA générative a stupéfait le monde entier. Retour sur une année marquée par la technologie, qui pourrait n’être qu’un avant-goût de la révolution à venir en 2023…

De la guerre en Ukraine à la finale historique de Coupe du Monde, 2022 était chargée d’actualité. Toutefois, cette année a aussi été marquée par l’essor d’une technologie : l’intelligence artificielle générative.

Au fil des douze derniers mois, nous avons assisté avec stupeur à l’expansion rapide de l’IA à travers le développement d’immenses modèles de langage dans le monde entier. Une véritable révolution a débuté, et 2022 pourrait rester dans les mémoires comme l’avènement d’une ère nouvelle…

Les IA les plus marquantes de 2022

Des milliers de modèles d’intelligence artificielle ont été déployés en 2022. Toutefois, seule une poignée d’entre eux ont fait les gros titres. Voici une sélection des IA les plus impressionnantes et utiles lancées cette année…

Relaxé en novembre 2022, OpenAI text-davinci-003 est un modèle de langage ouvert. Il s’agit du nouveau moteur par défaut de GPT-3. Sa particularité la plus étonnante est sa capacité à rimer.

Un autre modèle de langage marquant est Google PaLM5, qui vient compléter la famille Pathways. À la différence de text-davinci-003, il s’agit toutefois d’un modèle fermé.

Bien évidemment, impossible de revenir sur 2022 sans évoquer MidJourney : le modèle d’IA générative « text-to-image » capable de générer des images artistiques à partir de textes. La version V4 déployée en novembre 2022 est particulièrement bluffante.

Parmi les autres modèles Text-to-Image relaxés au cours de l’année, on compte aussi DALL-E d’OpenAI et Stable Diffusion. De son côté, Google a lancé Parti entraînée sur un dataset d’une taille record de 4,8 milliards d’images. Il s’agit toutefois d’un modèle fermé et réservé aux chercheurs.

Le 30 novembre 2022, OpenAI a signé le clou du spectacle avec ChatGPT : un chatbot basé sur GPT-3, en accès libre sur le web, capable de répondre à n’importe quelle question en langage naturel…

Les nouveaux magnats de l’IA

L’année 2022 a aussi été marquée par le succès des entreprises d’IA. Plusieurs entreprises ont atteint une capitalisation de plusieurs milliards de dollars grâce à leurs modèles IA. Précisons toutefois que de nombreux investissements restent confidentiels…

Parmi les grands gagnants de l’industrie, on compte Sonantic ayant levé 95 millions de dollars, et Xiaoice ayant atteint une capitalisation de mille millions de dollars grâce à 138 millions de dollars d’investissement.

De son côté, Stability.ai a levé 100 millions de dollars et atteint une valorisation de 1100 millions de dollars. Elle doit notamment son succès au modèle open source d’intelligence artificielle text-to-image Stable Diffusion.

L’intelligence artificielle de rédaction SEO et marketing Jasper.ai a levé 125 millions de dollars. Elle atteint désormais 1500 millions de dollars de valorisation. Découvrez notre test complet à cette adresse pour savoir si Jasper.ai peut remplacer un rédacteur humain. De son côté, Hugging Face a levé 100 millions de dollars d’investissement et atteint 2000 millions de dollars de valorisation.

Le grand vainqueur de cette année 2022 est bien évidemment OpenAI. L’entreprise californienne fondée en 2015 par Elon Musk et Sam Altman a atteint une capitalisation de 20 000 millions de dollars, notamment grâce à la hype générée par DALL-E et ChatGPT

La branche d’intelligence artificielle DeepMind d’Alphabet (Google) a quant à elle levé 1200 millions de dollars. En l’occurrence, il s’agit en fait des coûts pris en charge par Alphabet. Ses nouveaux modèles ont été adoptés par les chercheurs, notamment pour proposer des expériences personnalisées.

Par exemple, le modèle Chinchilla a été utilisé pour créer Dramatron capable de créer des scripts de théâtre. Dans le cadre du Fringe Festival d’août 2022, des comédiens humains ont joué les pièces générées par cette IA.

Les applications basées sur ces modèles couvrent une large diversité de domaines, et de nombreuses startups s’en servent pour créer des plateformes et des outils novateurs. Toutefois, seule une poignée d’acteurs crée de nouveaux modèles.

L’année du Text-to-Image

Une catégorie d’intelligence artificielle a connu un essor particulièrement fulgurant en 2022 : il s’agit des modèles « text-to-image ». À partir de quelques mots clés entrés par l’utilisateur, ces IA peuvent générer des images totalement inédites.

La monétisation de ces modèles a été beaucoup plus rapide que prévu. Par exemple, le géant du jouet Mattel a utilisé DALL-E 2 d’OpenAI pour concevoir de nouvelles voitures pour sa gamme Hot Weels. Il exploite notamment l’IA pour tester différentes couleurs ou altérer un design. Selon la firme, le but est d’amplifier la qualité des idées et d’en trouver de nouvelles.

mattel dall e

De même, en novembre 2022, le brasseur allemand Brauquadrat a utilisé Midjourney V4 afin de générer des images artistiques pour sa gamme de bière aigre. À partir d’un simple prompt « photo commerciale de framboise, fond bleu sarcelle, éclaboussures, juteux », l’IA a généré des résultats saisissants.

bière ia

Au même moment, Stability.ai a annoncé l’adoption de son modèle Stable Diffusion par plus de 200 000 développeurs de logiciels. Un cap majeur pour le plus large modèle Text-to-Image open-source.

Outre DALL-E 2 et Stable Diffusion, de nombreux modèles Text-to-Image ont vu le jour en 2022. Ces IA sont désormais intégrées aux logiciels les plus populaires, tels que Canva, DeviantArt, AutoCAD, Photoshop, ou encore Lensa et son nouvel outil Magic Avatars.

Des modèles de plus en plus larges

Les modèles Text-to-Image sont de plus en plus larges, et les plus récents sont entraînés sur des milliards de paires d’images et de textes pendant l’équivalent de centaines d’années. On distingue par ailleurs plusieurs catégories de modèles : autorégressif, diffusion et GAN (réseaux antagonistes génératifs). Voici quelques exemples de modèles pour chaque catégorie, et leur nombre de paramètres.

Les modèles autorégressifs

  • OpenAI DALL-E 1, janvier 2021
  • Tsinghua CogView, mai 2021, 4 milliards de paramètres
  • Google Parti, juin 2022, 20 milliards de paramètres
  • Tsinghua CogView 2, juin 2022, 24 milliards de paramètres
  • Microsoft NUWA-Inifinity, juillet 2022

Les modèles diffusion

  • Midjourney v1, avril 2022
  • OpenAI DALL-E 2, avril 2022, 1 million d’utilisateurs en 3 mois
  • Google Imagen, mai 2022
  • Stability.ai Stable Diffusion, août 2022, 1 million d’utilisateurs dans 50 pays
  • Baidu ERNIE-ViLG 2.0, octobre 2022, 24 milliards de paramètres
  • Nvidia eDiff-I, novembre 2022
  • MidJourney V4, novembre 2022

Les modèles GAN

  • CrAIyon (DALL-E Mini), août 2022, 2,5 milliards de paramètres

Évoquons également les modèles « Text-to-Video » comme Google Imagen Video et Phenaki, ou Meta Make-A-Video. Comme leur nom l’indique, ces IA vont encore plus loin en créant des vidéos à partir du texte entré par l’utilisateur. À l’avenir, ils pourraient générer votre futur film ou série préféré en un instant ou créer des mondes en réalité virtuelle…

Les modèles de langage comme GPT sont eux aussi de plus en plus larges, et pourraient être combinés avec les Text-to-Image pour créer un immense modèle multimodal. En observant le classement des modèles de langage les plus larges, on s’aperçoit que la Chine et la Russie rivaliseront bientôt avec les États-Unis dans le domaine de l’open-source…

L’essor de l’open-source

Plus de 1000 chercheurs de 60 pays ont répliqué GPT-3 en utilisant plus de 40 langages. L’entraînement du modèle a débuté le 11 mars 2022 et s’est terminé le 6 juillet 2022 en utilisant 384 GPU A100 sur le superordinateur public français Jean Zay pour un coût total de 7 millions de dollars. Initialement intitulé tr11-176B-ml, ce modèle open-source a finalement été nommé BLOOM.

En parallèle, l’équivalent russe de Google, Yandex, a relâché un modèle à 100 milliards de paramètres capable de parler russe et anglais. La Chine a quant à elle ouvert son modèle GLM-130B au reste du monde, repris par WeChat avec WeLM 10B.

Aux États-Unis, Amazon a promis d’ouvrir son nouveau Alexa Teacher Model (AlexaTM 20B) et Meta a également ouvert plusieurs modèles au public. Par exemple, une démo Galactica (GAL 120B) a été présentée au public. Malheureusement, les abus et détournements par des acteurs malveillants ont poussé Meta à retirer cette démo.

Quand l’IA s’invite dans le2s entreprises

De nombreuses entreprises du Fortune 500 utilisent les modèles IA. Ceci concerne tous les secteurs d’activité, dont la santé, le retail, l’ingénierie ou la mode.

Si l’on prend pour exemple GPT-3, ce modèle créé par OpenAI est notamment utilisé par Microsoft, Shell, Morgani Stanley, IBM, HSBC, PWC, EY, Accenture, AON, Cognizant, WiPro, Cisco, Intel, Salesforce, Disney, BMW, Jasper.AI, Autodesk et Twitter.

L’explosion du hardware et des données

Afin de concevoir leurs nouvelles puces, les fabricants utilisent désormais l’IA. C’est le cas de Google pour ses TPU, ou de Nvidia pour ses GPU Hopper H100. Or, les circuits conçus par l’IA sont plus petits et plus rapides.

Ceci a permis d’augmenter considérablement la puissance des puces, à leur tour utilisées pour entraîner les modèles IA. Par exemple, il est fréquent de combiner plusieurs milliers de TPU pour entraîner un modèle en parallèle pendant l’équivalent de centaines d’années.

Ainsi, les nouveaux GPU Hopper H100 sont six fois plus rapides que les puces A100 utilisées pour l’entraînement de la plupart des modèles IA de 2022. On peut donc s’attendre à des modèles encore plus impressionnants dès 2023…

Par ailleurs, en mars 2022, Jordan Hoffmann et 21 autres chercheurs de DeepMind ont partagé une découverte majeure. Ils se sont aperçus que les labos IA n’avaient utilisé que 9% du volume de données qu’ils auraient dû exploiter pour entraîner leurs modèles.

Ainsi, alors que GPT-3 175B a été entraîné sur environ 300 milliards de token (environ 600 gigabits), il aurait dû être entraîné sur 3500 milliards de tokens soit l’équivalent de 7 terabits. Dès lors, les laboratoires ont commencé à collecter de plus en plus de données.

Certains ont même dépassé le volume de données recommandé, à l’instar de WeChat WeLM 10B, Amazon AlexaTM 20B, et Microsoft Z-Code++. D’autres ont adopté une approche originale, comme OpenAI dont le modèle transformer de reconnaissance de discours Whisper a été entraîné sur 77 ans de contenu audio. Cette IA pourrait aider à créer de nouveaux datasets textuels basé sur l’audio, incluant des discours extraits de vidéo.

L’IA sur le point de surpasser l’humain ?

Les modèles IA les plus récents surpassent les humains sur des examens scolaires. Par exemple, les modèles Google Pathways ont obtenu un meilleur score que la plupart des étudiants sur des tests de mathématiques.

Le modèle Minerva 540B de juillet 2022 a obtenu un score 14% supérieur à la moyenne sur l’examen de mathématiques national de Pologne, et 79% supérieur à la moyenne sur celui du Royaume-Uni.

De même, PaLM 540B daté d’avril 2022 surpassent les humains sur le benchark SuperGLUE et Flan-PaLM d’octobre 2022 réalise des performances deux fois supérieures à la moyenne humaine sur le benchmark MMLU.

Cette évolution rapide permet de créer de nombreuses applications pour les modèles de langage. Le créateur de Google Transformer, Dr Ashish Vaswani, a fondé Adept pour appliquer cette technologie à n’importe quelle tâche du navigateur web ou d’un ordinateur.

Avec un budget de 65 millions de dollars et à l’aide de chercheurs de DeepMind, Google Brain et OpenAI, l’équipe a relâché son premier modèle Action Transformer (ACT-1) en septembre 2022. Ce modèle est actuellement attaché à une extension Chrome pour lui permettre d’observer ce qui se passe sur le navigateur et d’effectuer certaines actions comme cliquer, taper du texte ou faire défiler l’écran.

Il est possible d’utiliser ACT-1 pour suivre des instructions de recherche immobilière, ajouter des clients à un CRM, écrire des emails, et bien plus encore. Les résultats sont bluffants, et les prochaines itérations seront capables d’interagir avec diverses applications sur un PC.

Le futur de l’IA en 2023

Plusieurs nouveautés majeures sont attendues pour 2023 dans le domaine de l’IA. Tout d’abord, DeepMind entraîne déjà son nouvel agent généraliste Gato. Il pourrait s’agir de la première véritable intelligence artificielle générale.

La famille Google Pathways va également s’étendre, afin de couvrir les 1000 langages les plus parlés dans le monde. Ceci permettra une meilleure inclusion de milliards de personnes issues de minorités autour du monde.

En outre, trois ans après GPT-3, OpenAI pourrait relâcher GPT-4. Ce nouveau modèle de langage a de fortes chances de bouleverser le paysage actuel de l’IA, avec un nouveau bond en avant technologique…

Et si 2022 était l’année des modèles Text-to-Image, 2023 pourrait être celle des modèles Text-to-Video. Plusieurs modèles de ce type ont été dévoilés au cours de l’année, mais ils devraient passer un cap en termes de définition et de taux de rafraîchissement.

À l’avenir, l’intelligence artificielle générale pourrait résoudre plusieurs problèmes majeurs de l’humanité. Les véhicules autonomes pourraient mettre un terme à la conduite manuelle et aux accidents mortels qui surviennent toutes les 24 secondes dans le monde.

L’IA générale pourrait aussi nous libérer du travail, puisqu’elle sera 99% plus productive que l’humain. Par ailleurs, il serait possible de générer des régimes diététiques sur mesure pour supprimer l’obésité et la malnutrition.

Toutefois, il faudra sans doute patienter de nombreuses années pour que le formidable potentiel de l’IA s’applique aux huit milliards d’humains peuplant cette planète. Et si les grandes entreprises exploitent déjà cette technologie, les gouvernements et institutions publiques sont très en retard.

Quoi qu’il en soit, la révolution a commencé et va se poursuivre en 2023 avec l’émergence de nouveaux modèles spectaculaires. La voie vers une IA généraliste est désormais tracée, et rien n’arrêtera l’avènement de cette nouvelle ère

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Pin It on Pinterest