Text-to-Speech : qu’est-ce que la synthèse vocale ?

Bastien L. 1 juin 2018 2 minutes de lecture Analytics, Data Analytics

Le Text-to-Speech est une technologie permettant à un ordinateur de lire des textes à voix haute. Découvrez tout ce que vous devez savoir à ce sujet : définition, fonctionnement, cas d’usage, principales solutions…

Le Text-to-Speech (TTS) est un type d’application de synthèse vocale permettant de créer un contenu vocal à partir d’un texte. Ces applications proposent les fonctionnalités inverses des logiciels Speech-to-Text, qui convertissent les contenus audio en textes.

Text-to-Speech : à quoi ça sert ?

Le Text-to-Speech permet par exemple à un ordinateur de lire un texte ou une page web. Ceci peut s’avérer très utile pour les personnes atteintes de malvoyance. C’est d’ailleurs pour ces personnes que cette technologie a été développée à l’origine.

Toutefois, le TTS peut être utilisé tout simplement pour consulter un texte sans avoir à garder le regard rivé sur l’écran d’un ordinateur ou d’un smartphone. Il est par exemple possible de demander à un ordinateur de lire ses mails, ou à un navigateur web comme Firefox de lire le contenu d’une page web.

Cette technologie est désormais un élément omniprésent dans le secteur des interfaces utilisateurs. On la retrouve notamment dans le domaine du jeu vidéo, des systèmes d’annonces publiques, du e-learning, de l’internet des objets ou encore des assistants personnels.

Text-to-Speech : comment ça fonctionne ?

Les logiciels Text-to-Speech forment des phrases basées sur des graphèmes et des phonèmes de langage. Un moteur TTS est composé de deux parties : un front-end et un back-end. Le front-end se charge d’assigner des transcriptions phonétiques à chaque mot, et divise un texte en phrases. Le back-end, aussi appelé synthétiseur, est quant à lui chargé de convertir la représentation linguistique symbolique en son.

Les logiciels TTS ne doivent pas être confondus avec les systèmes de réponses vocales, qui créent des phrases à partir de mots préenregistrés dans une base de données. Ces systèmes sont nettement plus limités.

La qualité d’un synthétiseur vocal peut être évaluée par sa similitude avec une véritable voix humaine, et sa compréhensibilité. Dans ce sens, au cours des dernières années, la technologie derrière le Text-to-Speech a beaucoup évolué. Grâce au Deep Learning, la sonorité de ces logiciels est maintenant très naturelle. Les changements de rythme, de prononciation et d’inflexion ressemblent réellement à ceux d’un orateur humain.

Quels sont les logiciels Text-to-Speech les plus connus ?

Parmi les logiciels Text-to-Speech les plus connus, on compte Read Please 2000, Proverbe Speech Unit, ou encore TextAloud. Certains logiciels TTS s’accompagnent de matériel. Par exemple, le Quick Link Pen de WizCom Technologies est un stylo capable de scanner des textes et de les lire à voix haute.

Parallèlement à ces applications dédiées, plusieurs grands éditeurs de logiciels proposent leurs propres applications de Text-to-Speech. C’est le cas de Lucent, Elan, AT&T, ou encore Google et Amazon Web Services. De même, depuis la fin des années 1990, de nombreux systèmes d’exploitation informatiques proposent des fonctionnalités de Text-to-Speech.

Par exemple, Google Text-to-Speech est une application de lecture d’écran développée par Google pour son système d’exploitation mobile Android. Elle permet aux applications mobiles de lire du texte à l’écran à haute voix dans de nombreux langages. Cette technologie est par exemple utilisée pour la lecture de livres par Google Play Books, ou par Google Traduction pour lire des traductions à voix haute afin d’indiquer l’intonation à adopter. Les applications tierces peuvent également l’utiliser.