Gemma 3 : Google dévoile l’IA la plus puissante qui peut tourner sur votre smartphone

Dina R. 13 mars 2025 2 minutes de lecture Google, Intelligence artificielle

Les modèles Gemma 3 sont à la fois multilingues, multimodaux et capables de traiter davantage de données, tout en fonctionnant avec un seul GPU. En fait, Google DeepMind choisit cette approche pour viser directement les développeurs.

Google marque une fois de plus un grand coup avec Gemma 3 ! Ce modèle d’IA, conçu pour repousser les frontières de l’intelligence artificielle, est léger et ouvert. Elle allie accessibilité et performance et ne se contente pas de suivre les tendances. En fait, elle redéfinit la notion d’IA polyvalente.

Gemma, un modèle d’IA avec des performances assez impressionnantes !

Gemma 3 a un énorme potentiel pour dominer le marché. Tout d’abord, ce nouveau modèle de Google surpasse les modèles plus volumineux dans divers benchmarks. En effet, il a atteint un niveau de score de 1338 sur LMArena. C’est ce qui fait de Gemma 3 une IA à la fois compacte et ouverte.

Par ailleurs, la vitesse d’inférence de Gemma 3 repousse encore les limites avec jusqu’à 2585 tokens/seconde sur Google AI Edge. Désormais, il n’est plus considéré comme « modèle léger », mais plutôt une IA avec une efficacité inégalée.

Il s’agit également d’un modèle de langage-vision optimisé. Contrairement à leurs prédécesseurs, quatre des cinq modèles Gemma 3 appartiennent à la sous-catégorie langage-vision de l’IA multimodale. Seul le plus petit, Gemma 3-1B, reste un modèle strictement textuel.

Tous les modèles sont aussi proposés en versions préentraînée et instruite. Gemma 3-4B, 12B et 27B sont dotées d’une fenêtre de contexte de 128 000 tokens. De plus, Gemma 3-1B prend en charge jusqu’à 32 000 tokens. De son côté, Shield Gemma 2-4B, conçu pour la modération, peut traiter jusqu’à 8 000 tokens en une seule passe.

Côté vision, le traitement des images repose sur un encodeur visuel de 417 millions de paramètres basé sur SigLiP. C’est une technologie identique à celle du VLM PaliGemma, mais adaptée pour minimiser la consommation de VRAM via des images et vecteurs de taille fixe.

Enfin un modèle d’IA conçu pour les appareils mobiles !

Selon Google, Gemma 3 est le modèle d’IA le plus performant sur un accélérateur unique. En effet, il est capable de fonctionner sur un seul GPU ou TPU sans nécessiter un cluster complet.

Qu’est-ce que cela signifie ? Cela veut tout simplement dire qu’il pourrait s’exécuter nativement sur le TPU des smartphones Pixel comme le Gemini Nano.

En outre, l’un de ses principaux atouts par rapport à la famille Gemini réside dans son caractère open source. Sachez que les développeurs peuvent l’intégrer librement à leurs applications mobiles et logiciels de bureau en fonction de leurs besoins spécifiques.

De plus, Gemma 3 prend en charge plus de 140 langues, dont 35 directement pré-entraînées. En fait, c’est le fruit de l’ajustement du mix de données et l’utilisation du même tokenizer (SentencePiece), avec un vocabulaire étendu à 262 000 entrées.

Néanmoins, comme Gemini 2.0, il comprend texte, images et vidéos, en faisant un modèle véritablement multimodal.

Pour ce qui est de sa performance, il surpasse d’autres modèles open source populaires comme DeepSeek V3, OpenAI o3-mini (spécialisé en raisonnement) et Llama-405B de Meta.

Que pensez-vous de ce nouveau modèle d’IA de Google Gemma 3 ?