Pourquoi les IA évoluent de plus en plus de manière inattendue ?

Les LLM n'acquièrent pas de nouvelles compétences de manière inattendue au cours de leur évolution. Il faut seulement savoir bien mesurer leurs performances.

Les chercheurs pensaient que les grands modèles de langage (LLM) pouvaient avoir des améliorations imprévisibles. Cela posait alors un sérieux problème pour le développement de l'intelligence artificielle. Une récente étude vient balayer ce postulat. Un suivi adapté permet de savoir quand les LLM acquièrent des compétences.

Rappelons que les grands modèles de langage sont indispensables au développement de l'intelligence artificielle. Le très populaire chatbot génératif d', , repose sur des LLM comme -4 ou GPT-4 Turbo.

Le BIG-Bench, les LLM et leurs compétences

Nous sommes en 2022. Plus de 400 chercheurs lancent un projet d'envergure pour tester les grands modèles de langage. Surnommé BIG-Bench, celui-ci consiste à faire passer aux LLM une suite de 204 tâches. Sur la majorité des tâches, la performance augmente de manière régulière selon la taille du modèle. Sur certaines, les chercheurs notent un bond de performance après une période de latence.

Les auteurs qualifient ce comportement de “percée”, similaire à une transition de phase en physique. Ils soulignent également le caractère imprévisible de ce comportement. Cette évolution de manière inattendue soulève alors des interrogations en termes de sécurité. En effet, une IA générative imprévisible peut se révéler dangereuse.

Les conclusions du BIG-Bench remis en question

Cette semaine, trois chercheurs de l'université de Stanford publient un papier détaillant leurs travaux sur les conclusions du BIG-Bench. Cette nouvelle recherche indique que l'apparition soudaine des compétences n'est que la conséquence de la façon dont les chercheurs ont mesuré la performance des LLM.

Les compétences ne sont ni inattendues ni soudaines, soutient le trio de scientifiques. « La transition est beaucoup plus prévisible », a déclaré Sanmi Koyejo. Notons que cet informaticien à Stanford est l'auteur principal de l'article.

Par ailleurs, les LLM s'entraînent en analysant de gros volumes de textes. Ils déterminent les liens entre les mots. Plus il y a de paramètres, plus le modèle peut trouver de connexions. Rappelons que GPT-2 possède 1,5 milliard de paramètres, tandis que GPT-3.5 en a 350 milliards. GPT-4, qui fait tourner , utilise 1,75 trillion de paramètres.

L'importance de la méthode pour évaluer les LLM et leurs compétences

La croissance rapide des grands modèles de langage a entraîné une amélioration impressionnante de leurs performances. Le trio de Stanford reconnaît que ces LLM deviennent plus efficaces au fur et à mesure de leur évolution. Néanmoins, l'amélioration dépend du choix de la métrique pour l'évaluation, plutôt que du fonctionnement interne du modèle.

Selon le BIG-Bench, GPT-3 d'OpenAI et LaMDA de Google ont montré une capacité soudaine à résoudre des problèmes d'addition avec plus de paramètres. Cependant, cette “émergence” dépend de la métrique utilisée selon la nouvelle étude. Avec une métrique accordant un crédit partiel, l'amélioration semble graduelle et prévisible.

En somme, cette évolution de la notion d'émergence n'est pas anodine. Elle va certainement inciter les chercheurs à développer une science de la prédiction du comportement des grands modèles de langage.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *