Les LLM n’acquièrent pas de nouvelles compétences de manière inattendue au cours de leur évolution. Il faut seulement savoir bien mesurer leurs performances.
Les chercheurs pensaient que les grands modèles de langage (LLM) pouvaient avoir des améliorations imprévisibles. Cela posait alors un sérieux problème pour le développement de l’intelligence artificielle. Une récente étude vient balayer ce postulat. Un suivi adapté permet de savoir quand les LLM acquièrent des compétences.
Rappelons que les grands modèles de langage sont indispensables au développement de l’intelligence artificielle. Le très populaire chatbot génératif d’OpenAI, ChatGPT, repose sur des LLM comme GPT-4 ou GPT-4 Turbo.
Le BIG-Bench, les LLM et leurs compétences
Nous sommes en 2022. Plus de 400 chercheurs lancent un projet d’envergure pour tester les grands modèles de langage. Surnommé BIG-Bench, celui-ci consiste à faire passer aux LLM une suite de 204 tâches. Sur la majorité des tâches, la performance augmente de manière régulière selon la taille du modèle. Sur certaines, les chercheurs notent un bond de performance après une période de latence.
Les auteurs qualifient ce comportement de “percée”, similaire à une transition de phase en physique. Ils soulignent également le caractère imprévisible de ce comportement. Cette évolution de manière inattendue soulève alors des interrogations en termes de sécurité. En effet, une IA générative imprévisible peut se révéler dangereuse.
Les conclusions du BIG-Bench remis en question
Cette semaine, trois chercheurs de l’université de Stanford publient un papier détaillant leurs travaux sur les conclusions du BIG-Bench. Cette nouvelle recherche indique que l’apparition soudaine des compétences n’est que la conséquence de la façon dont les chercheurs ont mesuré la performance des LLM.

Les compétences ne sont ni inattendues ni soudaines, soutient le trio de scientifiques. « La transition est beaucoup plus prévisible », a déclaré Sanmi Koyejo. Notons que cet informaticien à Stanford est l’auteur principal de l’article.
Par ailleurs, les LLM s’entraînent en analysant de gros volumes de textes. Ils déterminent les liens entre les mots. Plus il y a de paramètres, plus le modèle peut trouver de connexions. Rappelons que GPT-2 possède 1,5 milliard de paramètres, tandis que GPT-3.5 en a 350 milliards. GPT-4, qui fait tourner Microsoft Copilot, utilise 1,75 trillion de paramètres.
L’importance de la méthode pour évaluer les LLM et leurs compétences
La croissance rapide des grands modèles de langage a entraîné une amélioration impressionnante de leurs performances. Le trio de Stanford reconnaît que ces LLM deviennent plus efficaces au fur et à mesure de leur évolution. Néanmoins, l’amélioration dépend du choix de la métrique pour l’évaluation, plutôt que du fonctionnement interne du modèle.

Selon le BIG-Bench, GPT-3 d’OpenAI et LaMDA de Google ont montré une capacité soudaine à résoudre des problèmes d’addition avec plus de paramètres. Cependant, cette “émergence” dépend de la métrique utilisée selon la nouvelle étude. Avec une métrique accordant un crédit partiel, l’amélioration semble graduelle et prévisible.
En somme, cette évolution de la notion d’émergence n’est pas anodine. Elle va certainement inciter les chercheurs à développer une science de la prédiction du comportement des grands modèles de langage.
- Partager l'article :