2026-06-11T16:16:35+02:00

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Tinah F. Publié le 11 juin 2026 Mis à jour le 11 juin 2026 2 minutes de lecture Rédaction IA

4 fois plus rapide. C’est la promesse de Google avec DiffusionGemma, un nouveau modèle expérimental qui repense la manière de générer du texte. En abandonnant la production mot par mot au profit d’une génération par blocs, cette IA mise avant tout sur la vitesse.

Cette nouveauté va sans doute satisfaire les impatients. Après tout, qui ne voudrait pas d’une IA capable d’aller plus vite ? Avec DiffusionGemma, Google explore une nouvelle façon de produire du contenu textuel. La firme mise sur la génération simultanée de centaines de jetons, plutôt que sur une production un par un.

L’objectif est de réduire la latence et d’exploiter davantage la puissance des GPU modernes. Bien sûr, les chiffres avancés ont de quoi attirer l’attention. Parce que Google évoque une génération jusqu’à quatre fois plus rapide que celle des modèles autorégressifs traditionnels.

Comment DiffusionGemma accélère-t-il la génération de texte ?

DiffusionGemma adopte une approche différente de la plupart des modèles d’IA qui génèrent du texte. Au lieu de construire une phrase progressivement de gauche à droite, le modèle génère un bloc entier de texte en parallèle.

L’IA commence par une sorte de brouillon rempli de jetons aléatoires. Puis elle affine le résultat au fil de plusieurs passes. Chaque étape permet de corriger et d’améliorer le contenu jusqu’à obtenir une version cohérente.

Meet DiffusionGemma!

An experimental open model that explores a fast approach to text generation, released under an Apache 2.0 license.

Moving beyond sequential, token-by-token processes to generate entire blocks of text simultaneously. Here’s what’s new with DiffusionGemma: 👇 pic.twitter.com/iaVMPr0WKx
— Google Gemma (@googlegemma) June 10, 2026

Cette technique s’inspire des modèles de génération d’images par diffusion. De la même manière qu’une image se précise à partir d’un bruit visuel, DiffusionGemma affine son texte jusqu’à produire un résultat exploitable.

L’un des principaux avantages de cette méthode est qu’elle exploite davantage la puissance des GPU modernes. Au lieu de laisser une partie des ressources matérielles inutilisées entre chaque jeton généré, le modèle traite jusqu’à 256 jetons simultanément. Ainsi, selon Google, la production de texte s’effectue à un rythme pouvant être jusqu’à quatre fois plus élevé que celui des modèles autorégressifs.

Cette architecture offre également un autre atout. Grâce à son attention bidirectionnelle, chaque partie du texte peut prendre en compte l’ensemble du paragraphe en cours de génération. Un fonctionnement intéressant pour l’édition, le remplissage de code ou certaines tâches où le contexte global joue un rôle essentiel.

Une vitesse impressionnante, mais quelques compromis au passage

Google affirme que DiffusionGemma peut dépasser les 1 000 jetons par seconde sur certains accélérateurs haut de gamme. De quoi séduire les développeurs qui cherchent des interactions quasi instantanées.

Le modèle repose sur une architecture Mixture of Experts de 26 milliards de paramètres. Lors de la génération, seuls 3,8 milliards de paramètres sont réellement activés. Cette approche réduit les besoins matériels et permet son utilisation sur des GPU grand public relativement puissants.

Infographie montrant le fonctionnement de DiffusionGemma, une IA capable de générer du texte jusqu’à 4 fois plus vite

Mais il y a un détail que Google ne cache pas. La vitesse a un coût. L’entreprise reconnaît que la qualité globale des réponses reste inférieure à celle de Gemma 4 dans sa version classique.

Autrement dit, DiffusionGemma n’est pas là pour détrôner immédiatement les meilleurs modèles de la famille. Son terrain de jeu se situe davantage du côté des expérimentations et des usages où chaque milliseconde compte.