Après les puces IA, la startup américaine Groq s’attaque au domaine des IA LLM (larges modèles de langage) en lançant son propre modèle LLaVA 1.5. Capable de traiter à la fois les images, le texte et l’audio, cette IA se révèle également quatre fois plus rapide que GPT-4o ! Le nouveau champion des chatbots ?
Dans le domaine des Larges Modèles de Langage IA, GPT-4o est considéré comme le leader incontesté. Si l’on se fie à la plateforme Chatbot Arena, qui classe les différents LLM en se basant sur différents benchmarks, le dernier modèle en date d’OpenAI se hisse en première position.
Il arrive en première place dans toutes les catégories, du codage aux mathématiques en passant par les longues requêtes et les prompts les plus complexes.
On retrouve ensuite Google Gemini 1.5, Claude 3.5, Grok 2, ou encore Meta Llama 3.1. Toutefois, près de deux ans après le lancement de ChatGPT et la démocratisation des IA de langage, l’industrie a gagné en maturité et de nouveaux challengers pourraient bien bouleverser l’ordre établi…
Le fabricant de puces IA Groq lance son propre LLM
Parmi les plus prometteurs, on compte Groq : un fabricant de puces IA américain, bien décidé à défier les mastodontes de l’intelligence artificielle sur leur terrain.
La startup vient d’annoncer LLaVA v1.5 7B. Selon les premiers tests, ce LLM se révèle quatre fois plus rapide que GPT-4o sur différentes tâches, mais peut aussi prendre en charge plusieurs modalités.
Au-delà du texte, ce LLM est capable de traiter l’image et l’audio. Les développeurs et les entreprises vont donc pouvoir exploiter cette IA multimodale pour créer des applications innovantes combinant les inputs textuelles, audio et visuelles !
LLaVA 1.5, un LLM multimodal associant langage et vision
Le nom LLaVA est un acronyme pour Large Language and Vision Assistant. Il s’agit d’un puissant modèle multimodal combinant les forces du langage et de la vision.
Cette IA se base sur OpenAI CLIP, et une version fine-tuned de Meta Llama 2 7B. Elle utilise le tuning d’instructions visuelles, afin de prendre en charge les instructions basées sur des images et le raisonnement visuel.
Ceci lui permet notamment de répondre aux questions basées sur des images, de générer des descriptions visuelles d’images, d’identifier le texte dans les images, ou encore de s’engager dans des conversations multimodales impliquant à la fois le texte et les images.
À quoi ça sert ? Quelques exemples d’applications
Les aptitudes multimodales de LLaVA 1.5 peuvent se révéler très utiles pour les entreprises de divers secteurs. Voici quelques exemples de cas d’usage dans le monde réel !
Grâce aux capacités VQA (réponses aux questions visuelles), un commerce peut utiliser les images de ses rayons pour suivre les niveaux d’inventaire et identifier les produits qui seront bientôt épuisés.
Les descriptions textuelles d’images, quant à elles, peuvent servir aux plateformes de réseaux sociaux afin d’aider les utilisateurs malvoyants à comprendre le contenu des images.
De même, une plateforme de e-commerce peut utiliser cette fonctionnalité pour aider les consommateurs malvoyants à effectuer des recherches et consulter les recommandations sous forme textuelle.
Grâce au système de dialogue multimodal, un chatbot de service client peut s’engager dans des conversations impliquant à la fois le texte et les images. Les clients peuvent ainsi poser des questions et recevoir des réponses au sujet des produits.
Au-delà de ces cas d’usage, LLaVA 1.5 peut automatiser différentes tâches au sein de diverses industries. Il peut notamment inspecter les produits sur la chaîne d’assemblage d’une usine et identifier des défauts pour aider les ingénieurs en contrôle de qualité à automatiser le processus.
Dans la finance, cette IA peut auditer les documents tels que les factures et les reçus pour automatiser la comptabilité. Les entreprises du retail peuvent s’en servir pour analyser les images de produits et automatiser la gestion d’inventaire ou la recommandation de produits.
Même dans le domaine de l’éducation, LLaVA peut examiner les images comme les diagrammes et les illustrations pour aider les étudiants à apprendre plus efficacement !
La multimodalité présente donc de nombreux intérêts, et représente la prochaine étape pour l’intelligence artificielle après les chatbots purement textuels comme ChatGPT. Par ailleurs, LLaVA 1.5 se distingue des autres IA multimodales comme GPT-4o ou Google Gemini par ses performances !
GPT-4o détrôné par ce nouveau challenger ?
Lors de son entraînement en septembre 2023, LLaVA 1.5 a atteint des performances de pointe sur un total de 7 benchmarks, dont 5 benchmarks académiques VQA (réponses à des questions visuelles).
Ce modèle excelle donc en matière de compréhension et de génération de texte basées sur des inputs visuels. De plus, selon un benchmarking mené par Artificial Analysis, il se révèle quatre fois plus rapide que GPT-4o !
À partir d’un input composé d’une image 1024×1024 et de 100 tokens de texte, son temps de réponse pour un output de 100 tokens est de 0,99 seconde. En comparaison, celui de GPT-4o est de 4,86 secondes !
Ainsi, LLaVA 1.5 pourrait bel et bien venir donner du fil à retordre aux géants bien installés de l’industrie des LLM. Il faudra toutefois patienter pour vérifier si sa vitesse et ses performances se confirment sur d’autres benchmarks !
Comment utiliser LLaVA 1.5 7B dès maintenant ?
Si vous souhaitez tester LLaVA 1.5, vous pouvez utiliser le mode preview via la plateforme cloud GroqCloud de Groq. Ceci vous permettra notamment d’essayer le système de reconnaissance d’image !
Avec ce nouveau modèle, GroqCloud prend désormais en charge trois modalités et permet donc aux développeurs et aux entreprises d’exploiter tout le potentiel de l’IA.
Vous pouvez commencer à utiliser LLaVA 1.5 sur la GroqCloud Developer Console dès à présent en suivant ce lien !
Alors, qu’en pensez-vous ? Avez-vous testé LLaVA 1.5 ? Trouvez-vous cette IA plus rapide que GPT-4o ? Pensez-vous que Groq peut dépasser OpenAI ? Partagez votre avis en commentaire !
- Partager l'article :