Quel est l’avenir des technologies de transcription et de sous-titrage automatique ?

Alors que les technologies automatique de reconnaissance vocale (automatic recognition technology ou speech-to-text en anglais) ne cessent de faire des progrès, de nombreuses solutions de transcription et de sous-titrage automatique sont apparues.

Pourtant, en l’état actuel des choses, l’expertise humaine est toujours nécessaire pour détecter des structures phonétiques plus complexes ou dans des contextes sonores plus confus.

Pour pallier ces manques, voici comment certaines solutions semblent se tourner entre un mix de compétences humaines et technologiques.

Les progrès de la reconnaissance vocale

Depuis les années 60, la transcription des paroles en texte par un ordinateur s’est progressivement affiné. L’analyse s’est notamment appuyés sur des sources et des paramètres de données de plus en plus divers (acoustiques, phonétiques, linguistiques voire l’articulation).

Le pouvoir du machine learning a traité ses différentes informations a permis d’augmenter la précision à laquelle ces ordinateurs font correspondre un mot à un phonème. Aujourd’hui, avec les solutions commercialisées par Google, Microsoft, ou Amazon ont atteint ainsi une probabilité de 80% d’erreurs dans cette reconnaissance, en tout cas dans des conditions idéales. En effet, des interférences comme des paroles dites “réverbérantes” ou des fonds bruyant peuvent particulièrement affectée l’analyse.

Si l’avancée reste importante par rapport à une vingtaine d’année, elle n’est cependant pas suffisante pour se passer d’une expertise humaine. Un transcripteu

r est capable de reconnaître la langue avec 99% de chance, et s’adapte à des contextes plus bruyants en se servant du sens commun.

Une collaboration IA/humain

En conséquence, les concepteurs de solution de transcription et de sous-titrage se reposent encore sur un service humain. Mais celle-ci s’appuie de plus en plus sur la reconnaissance vocale automatique, comme base de travail et pour gagner du temps.

La voie est donc vers des plateformes qui fournissent le travail d’un algorithme de reconnaissance, avec le travail d’un professionnel de la transcription. Cette collaboration peut aller encore plus loin, si l’on décide de nourrir cet algorithme de données des transcriptions humaines. Le machine learning permet alors de capter et mémoriser les subtilités de la langue repérées par les professionnels.

À noter qu’à l’enjeu de la reconnaissance vocale, s’ajoute pour la question du sous-titrage le bon découpage des phrases et la répartition des codes temporels sur les vidéos. En effet, les sous-titres s’organisent de manière discontinue, en se synchronisant avec les paroles des locuteurs.

Les API de transcription doivent donc être aussi capable d’établir les meilleures divisions dans le texte et de faire correspondre avec le bon timing les mots aux paroles. À la reconnaissance vocale s’ajoute une technologie de synchronisation vocale. Certaines solutions de sous-titrage automatique réfléchissent ainsi à partir de la création d’une transcription pour ensuite rapporter cette transcription à la parole.

Le résultat est un sous-titrage qui gagne encore plus de temps, et qui enlève la tâche supplémentaire de synchronisation pour les transcripteurs. Mais il faut dire néanmoins qu’elle tient encore à la pertinence de la technologie de reconnaissance vocale.

En attendant d’autres progrès plus importants (notamment à travers la lecture des lèvres et la synthèse vocale), la collaboration homme/machine a ainsi encore de beaux jours devant elle !