Meta lève le voile sur son propre Large Modèle de Langage (LLM) : LLaMA. Actuellement réservé à la communauté scientifique, ce modèle pourrait surpasser OpenAI GPT-3 sur lequel est basé ChatGPT et Google LaMDA servant de moteur à Bard. Découvrez tout ce que vous devez savoir !
Avec le lancement de ChatGPT fin 2022, OpenAI a mis un grand coup de pied dans la fourmilière de la haute technologie. Menacé dans son hégémonie du web, Google s’est empressé de lancer son propre chatbot Bard en version beta en février 2023.
De même, le géant chinois Baidu s’apprête à rivaliser en lançant sa propre IA. Désormais, la robotique conversationnelle est un nouveau champ de bataille dans la guerre des titans de la tech.
Quelques jours après Google, le 24 février 2023, Meta vient de dévoiler son propre large modèle de langage (LLM) visant à concurrencer GPT de ChatGPT et LaMDA de Google Bard. Ce modèle porte le nom de LlaMA : Large Language Model Meta AI.
Les larges modèles de langage sont le coeur des chatbots IA. Ils sont capables d’exploiter d’immenses volumes de textes pour résumer des informations et générer du contenu. C’est ce qui leur permet notamment de répondre à des questions en langage naturel.
Meta LLaMA vs Bard et ChatGPT : une IA beaucoup moins gourmande
Comme les autres larges modèles de langage, LLaMA fonctionne en recevant une séquence de mots comme entrée pour ensuite prédire le mot suivant afin de générer du texte récursivement.
Selon Meta, son principal avantage est qu’il requiert beaucoup moins de puissance de calcul que les autres LLM. Il est possible de l’exécuter sur un unique GPU Nvidia Tesla V100 de Data Center.
Il est aussi capable de surpasser les concurrents ayant plus de paramètres. Par exemple, une version de LLaMA avec 13 milliards de paramètres peut surpasser GPT-3 sur lequel est basé ChatGPT. Pourtant, ce modèle Transformer a 175 milliards de paramètres.
Un LLaMA à 65 milliards de paramètres rivalise avec Google Chinchilla70B et PaLM-540B alors qu’ils sont plus larges que le modèle LaMDA utilisé par Bard.
Selon Meta, ces performances supérieures sont liées à une meilleure qualité des données et à des améliorations architecturales ayant permis d’accroître la stabilité de l’entraînement.
Par ailleurs, ce modèle est entraîné sur des textes écrits dans 20 langages. Il s’agit principalement de langue utilisant l’alphabet latin et cyrillique. Les données d’entraînements sont issues de datasets publiquement disponibles comme Wikipédia, ArXiv, Stack Exchange, CCNet ou C4.
Réservé aux chercheurs jusqu’à nouvel ordre
Pour l’heure, Meta LLaMa sera disponible uniquement sous licence non commerciale pour les chercheurs et les entités affiliées aux gouvernements, à la société civile ou au secteur de l’éducation. Les demandes d’accès s’effectuent via un formulaire à cette adresse.
La dernière fois que Meta a laissé le grand public jouer avec l’une de ses IA, BlenderBot est devenu raciste en quelques heures et a dû être euthanasié. On peut donc comprendre que la firme préfère éviter de réitérer l’expérience…
Au total, les chercheurs pourront accéder à quatre déclinaisons de LLaMA dont la taille va de 7 milliards à 65 milliards de paramètres. En général, les modèles plus larges offrent de meilleures performances, mais leur exploitation est plus coûteuse.
Les variantes LLaMA 65B et LLaMA 33B sont entraînées avec 14 billions de tokens, tandis que le plus petit LLaMA 7B est basé sur un billion de tokens.
Le but de ce lancement semble être de laisser les chercheurs tester les capacités génératives de cette IA, en vue de l’implémenter dans les produits de Meta dans un avenir proche.
On peut notamment imaginer une intégration à ses réseaux sociaux comme Facebook et Instagram, ou à ses messageries comme WhatsApp. Il existe déjà des robots ChatGPT pour WhatsApp, à découvrir dans notre guide des meilleures extensions.
Si les larges modèles de langage sont prometteurs pour générer du texte ou résumer du contenu écrit, Meta perçoit aussi leur potentiel pour des tâches plus compliquées comme « la résolution de théorèmes mathématiques ou la prédiction de structures de protéines ».
L’objectif est aussi de laisser les experts travailler pour résoudre les principaux problèmes des modèles de langage IA, comme les biais ou la toxicité et la tendance à falsifier des informations. Récemment, la nouvelle version de Microsoft Bing intégrant ChatGPT a commencé à menacer les internautes.
Un nouvel espoir après l’échec du métavers ?
Même si Meta n’a pas autant d’expérience que Google et OpenAI dans le domaine de l’IA générative, elle ne peut se permettre de passer outre ce nouveau filon.
Dans son billet de blog de présentation, Meta l’a d’ailleurs qualifié de « nouveau secteur important, changeant vite ». À l’heure où le métavers se profile comme un échec, il pourrait s’agir d’une opportunité de rebond pour la firme de Mark Zuckerberg…
- Partager l'article :