Reconnaissance vocale : tout savoir sur cette technologie d’intelligence artificielle

Nirina R. 13 juillet 2021 6 minutes de lecture Intelligence artificielle

Jarvis, le majordome fictif de Tony Stark dans le film Iron Man est un exemple, fictif, de reconnaissance vocale. Bien que les interfaces informatiques actuelles ne soient pas aussi performantes, les avancées technologiques sont évidentes. Vraisemblablement, le personnage de Marvel a su ouvrir les yeux à un grand nombre d'adeptes d'IA.

Historique de la reconnaissance vocale

L'origine de la reconnaissance vocale date des années 1950. Tout a commencé lorsque les laboratoires Bell lancent Audrey. Il s'agit, en effet d'un système permettant la reconnaissance vocale des chiffres 1 à 9. Dix ans plus tard, Shoebox réalise un exploit en faisant la distinction entre 16 mots en anglais. Celui-ci est suivi de près par Harpy de Carnegie Mellon qui est capable d'assimiler plus de 1 000 mots en 1970. Certes, ces inventions semblent minimes quand on jette un coup d'œil à ce qu'il en est aujourd'hui. Toutefois, sans ces pionniers qui ont percé le chemin, Apple n'aurait jamais pu mettre Siri sur ses iPhones. Même chose pour Amazon avec Alexa et Google Assistant.

Une technologie à plusieurs avantages

La reconnaissance vocale est efficace dans la mesure où elle permet de gagner du temps et de l'argent. A ce titre, si la vitesse de frappe moyenne sur clavier est de 40 mots à la minute, cette technologie atteint jusqu'à 150 mots sur le même laps de temps. Cela rend la communication avec les appareils plus naturelle. Grâce à l'extrême précision de ces outils, l'utilisateur est plus apte à se focaliser sur son activité. Résultat, celui-ci devient plus productif. Bref, la reconnaissance vocale permet de réaliser de nombreuses tâches. C'est une technologie fiable, sûre et son utilisation ne nécessite pas de longues heures de formation.

Un process complexe malgré une simplicité apparente

Le côté pratique et la facilité de parler aux assistants numériques cachent bien la complexité du système. Prenons l'exemple d'un enfant qui apprend une langue de son entourage. Celui-ci absorbe différents signaux tels que l'intonation, la syntaxe ou la prononciation dans son apprentissage. Cela est possible grâce à son cerveau qui est taillé pour cela. En termes de reconnaissance vocale, ce sont les développeurs eux-mêmes qui réalisent le câblage. Et ce n'est pas tout. La construction d'un mécanisme d'apprentissage de langue est le plus grand challenge à relever. On notera qu'il existe des milliers de langues parlées sur la planète, sans évoquer le nombre de dialectes et d'accents suivant la région.

Les étapes de fonctionnement de la reconnaissance vocale

A ce jour, une poignée de systèmes, dont celui de Google, a réussi à battre l'humain dans la compréhension du langage naturel. Cette technologie suit un mode de fonctionnement préétabli. De prime abord, le microphone capte la voix puis le transforme en signal électrique ondulatoire. A son tour, ce dernier fera l'objet d'une conversion en signal numérique. Analysé par un logiciel de reconnaissance vocale, celui-ci sera retranscrit en phonèmes puis reconstruits en mots. Bien sûr, rien n'est laissé au hasard. Le choix des expressions s'appuie sur des indices contextuels que l'on acquiert par analyse du trigramme. Il s'agit ici, d'une démarche prenant en compte la probabilité à laquelle deux mots succincts seront suivis d'un troisième mot.

Comment les entreprises élaborent-elles cette technologie ?

Chaque entreprise a sa stratégie, en fonction de ses idées mais également des ressources financières dont elle dispose. Fort heureusement pour les développeurs d'aujourd'hui, ces derniers ne sont plus amenés à partir de zéro quant au codage et l'appropriation des données vocales. Il est, à ce titre, possible d'intégrer les plateformes API. Le bémol, c'est que leurs algorithmes de reconnaissance vocale ne sont pas tous modifiables.

L'idéal serait alors de collecter des données vocales via des API faciles à utiliser comme le modèle Speech-to-text de Google Cloud, l'API « Speech to text » d'IBM Watson ou encore l'ASR signé Nuance. Ces outils sont une base pour ceux qui ambitionnent de développer un logiciel sur-mesure. Soulignons que dans cette optique, une entreprise a le choix entre trois modèles de reconnaissance vocale: acoustique, prononciation et langage. Si la première fragmente la forme d'onde de la parole pour déduire les phonèmes, le deuxième se sert des sons dans la formation des mots. Quant au troisième, lui, prédit la séquence de mots pour ensuite constituer des phrases.

Quels sont les principaux assistants vocaux existants ?

C'est au XXIe siècle que la technologie de reconnaissance vocale a fait un véritable bond. Petit à petit, celle-ci intègre notre quotidien que ce soit à travers nos voitures ou des jeux vidéo auxquels nous jouons. Dans tous les cas, les fonctionnalités les plus connues demeurent Apple Siri, Amazon Alexa et Google Assistant.

Apple Siri

Siri d'Apple est le premier assistant vocal à être produit. Datant de 2011, son créateur n'a pas tardé à équiper ses iPhones, iPads, HomePod, Apple TV ou encore Apple Watch de cette fonctionnalité. Plus tard, cette dernière est même intégrée aux écouteurs AirPod, au HomePod Mini ainsi qu'au système d'info divertissement CarPlay. Une chose est sûre, Apple souhaite placer Siri à proximité des consommateurs.

Il n'est donc pas surprenant que celui-ci permette l'envoi d'un SMS ou encore des appels à la demande. Notons qu'il est disponible dans une trentaine de pays et sous 21 langues différentes. Malgré les efforts de la Grande Pomme, cet outil a tout de même ses limites. A ce titre, les utilisateurs ont rapporté son « incapacité apparente à comprendre et à interpréter correctement les commandes vocales ».

Amazon Alexa

En 2014, Amazon déploie Alexa : son modèle de haut-parleur intelligent. Celui-ci trouvera sa place dans le Echo, Echo Buds et Eco Show de la marque. Cependant, Alexa se pose plus compétente que Siri. Pour le géant du commerce en ligne, il est certain qu'il « obtiendra un public fidèle, même s'il fait parfois des erreurs et prend plus d'efforts à utiliser ».

Le plus d'Alexa, c'est qu'il possède une faculté d'adaptation incroyable. S'accommodant à la voix de son utilisateur, il compense sans trop de mal son inefficacité à détecter un accent ou un dialecte particulier. Quant à son kit de compétences ASK, lui, permet aux développeurs d'utiliser son plein potentiel dans la conception d'applis. Pour ce faire, ces derniers n'auront pas besoin de support natif. Entre autres, les clients d'Amazon pourront désormais accéder au contrôle de leurs appareils connectés grâce à l'API Smart Home Skill. On notera que ce contrôle se fera à partir d'un point de terminaison compatible Alexa.

Google Asisstant

Quelles que soient les interrogations des utilisateurs, Google Assistant est apte à les comprendre et surtout donner une réponse conséquente. Cela semble tout à fait normal étant donné la puissance de recherche de l'entreprise américaine. Sorti en 2016, celui-ci est effectivement très récent.

Toutefois, après un an de lancement, le taux de précision s'affichait déjà à 95 % pour les mots en anglais américains. Le taux d'erreur, quant à lui, est de 4,9 %. A ce jour, c'est le seul système affichant un taux d'erreur inférieur à 5 %, ce qui est significatif. Ces petites failles sont rattachées à de nombreux paramètres à savoir les accents, les bruits de fonds, l'utilisation de mots atypiques, le contexte ainsi que la diaphonie.

La reconnaissance vocale, une technologie incontournable à l'avenir

La reconnaissance vocale est une technologie primordiale si l'on souhaite aller de l'avant. Celle-ci a démontré son efficacité à travers les applications mobiles. Etant donné que ces dernières font partie intégrante de notre vie de tous les jours, il est essentiel de faciliter la navigation. L'intégration vocale devient ainsi un standard à adopter.

Plus un assistant vocal peut différencier les voix naturelles et plus il peut fournir une expérience individualisée à l'utilisateur. C'est le cas, ici de Google Home. En effet, en lui demandant : « Fais-moi un compte rendu de ma journée », l'assistant se prononcera sur les trajets effectués, la météo ainsi que les différents rendez-vous réalisés.

Aussi, les consommateurs ne se suffisent plus d'un simple haut-parleur intelligent. Aujourd'hui, l'écran intelligent le surpasse, d'où l'accroissement de 21 % de la vente d'écrans intelligents à travers le monde. Sber et Xiaodu, deux inventions russe et chinoise proposent à ce titre, une panoplie de fonctionnalités novatrices comme « l'interaction vocale en champ lointain, la reconnaissance faciale, le contrôle des gestes de la main et la détection des gestes oculaires ».

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn