2026-05-19T11:05:20+02:00

Google Cloud Text-to-Speech va concurrencer AWS Polly dans les call centers

Bastien L. Publié le 28 mars 2018 Mis à jour le 19 mai 2026 2 minutes de lecture Google, Solutions Cloud

Google Cloud Text-to-Speech est un nouveau service créé par Google Cloud Platform pour transformer les textes en discours audio en langage naturel. Principalement destiné aux Call Centers, ce service se pose comme un concurrent direct de Amazon Web Services Polly.

Sur le marché du Cloud Computing, Google est actuellement loin derrière Amazon Web Services et Microsoft Azure. Cependant, la firme de Mountain View est actuellement celle qui rencontre la plus forte croissance. Afin de continuer sur sa lancée, Google Cloud multiplie actuellement les nouveaux services et fonctionnalités pour sa plateforme.

Après avoir récemment annoncé de nouvelles fonctionnalités de sécurité pour Google Cloud Platform, la firme dévoile aujourd’hui un nouveau service intitulé Google Cloud Text-to-Speech. Ce service permet de transformer des textes en discours oral en langage naturel.

Google Cloud Text-to-Speech pourra notamment être utilisé dans les Call Centers pour créer des systèmes de réponse vocale automatique. La technologie permet en effet aux appareils connectés de parler naturellement ou de convertir des textes écrits en discours audio.

Au total, le service permet aux utilisateurs de choisir 32 voix et 12 langages différents. Le rythme, le volume et le format peuvent aussi être personnalisés. Le principal concurrent de Google dans ce domaine est Amazon Web Sevices Polly, qui propose lui 47 voix différentes. Polly est déjà beaucoup utilisé dans les Call Centers et par de nombreuses applications.

Google Cloud Text-to-Speech repose sur le Machine Learning de Google Deepmind

Ce service reposant sur le Machine Learning utilise une technologie de Google Deepmind pour analyser l’audio brut. Cette technologie en question est WaveNet. Il y a encore un an, WaveNet pouvait créer des ondes d’audio brut grâce à un réseau de neurones artificiels entraîné à l’aide d’extraits de discours, mais cela lui prenait beaucoup de temps.

Grâce à une récente mise à jour, WaveNet fonctionne désormais sur l’infrastructure TPU de Google Cloud et peut générer des ondes sonores 1000 fois plus rapidement. En outre, les sont générés ressemblent désormais beaucoup plus à de véritables voix humaines.