Amazon est déterminé à surpasser OpenAI et Google. Récemment, la société a introduit Nova Sonic, son tout dernier modèle vocal basé sur l’intelligence artificielle.
Suite à l’amélioration d’Alexa, Amazon dévoile Nova Sonic, une innovation vocale conçue pour saisir notre façon de parler. Ce nouvel outil, déjà comparé à GPT-4o d’OpenAI ou Gemini de Google, mise sur l’émotion et la réactivité. Zoom sur cette nouveauté d’Amazon…
Nova Sonic modifie sa voix en fonction des émotions
Depuis quelques années, les assistants vocaux se multiplient. Mais souvent, ils manquent d’un détail : le ton. Nova Sonic arrive avec une promesse simple, mais ambitieuse.
Il ne s’agit plus seulement de répondre à des questions, mais de comprendre comment elles sont posées. En clair, si vous exprimez une frustration, l’IA va l’identifier et adapter sa réponse. Même chose si vous parlez avec enthousiasme : Nova Sonic réagit avec une tonalité plus enjouée.
C’est Rohit Prasad, vice-président senior de l’intelligence artificielle chez Amazon, qui mène ce projet. Selon lui, l’intelligence sans contexte reste incomplète. Et c’est là que ce modèle vocal fait toute la différence.
Contrairement aux anciens systèmes qui utilisent plusieurs briques (écoute, traitement, synthèse), Nova Sonic rassemble tout dans une seule architecture. Et ça change beaucoup de choses. En plus de mieux suivre la conversation, le système évite les coupures ou les erreurs de ton.
Et la bonne nouvelle ! Déjà en place dans Alexa Plus, cette IA sera bientôt ouverte aux développeurs via le service Bedrock. Elle est donc pensée pour s’intégrer facilement dans d’autres outils ou services vocaux, que ce soit dans l’éducation, le support client ou les applications mobiles.
Moins cher, plus rapide, et aussi déjà testé dans le réel
Alors, côté performance, Nova Sonic ne se limite pas à l’analyse vocale. Elle mise aussi sur la vitesse. Et d’après des tests menés par le cabinet Artificial Analysis, le temps de réponse est d’environ une seconde. C’est, à ce jour, plus rapide que GPT-4o ou Gemini Flash 2.0.
Et ce n’est pas le seul avantage. Nova Sonic est aussi plus économique : selon Amazon, son coût d’utilisation est 80 % inférieur à celui de GPT-4o pour les échanges vocaux en temps réel. Un argument fort, surtout pour les entreprises qui traitent des volumes importants de conversations.
Je note que plusieurs partenaires ont déjà accès à cette IA. Parmi eux, ASAPP adopte cette technologie pour optimiser la communication avec ses clients. De son côté, Education First l’applique pour dynamiser l’apprentissage des langues. Et Stats Perform, pour diffuser des données sportives à la voix, en temps réel.
Quant aux langues, pour l’instant, Nova Sonic ne parle qu’anglais, avec quelques accents. Mais Amazon prévoit d’en ajouter d’autres très vite.
Le modèle peut aussi accéder à des informations pratiques comme les prix, les horaires ou la disponibilité. Il peut effectuer des tâches pendant une conversation, comme réserver un vol ou proposer une autre solution.
Pour information, Nova Sonic fait partie d’un ensemble plus large baptisé « Nova ». Cette technologie a été dévoilée lors de la conférence AWS re:Invent en décembre 2024 par le PDG Andy Jassy. On y retrouve aussi Nova Act, un modèle orienté vers la création d’agents IA pour le web.
L’objectif final, selon Amazon, est de créer une intelligence générale capable de gérer toutes les formes d’entrée : texte, voix, image avec la même fluidité.
À votre avis, est-ce utile qu’une IA puisse s’adapter à votre ton ? Est-ce rassurant, ou au contraire, un peu trop intrusif à votre goût ? On vous laisse la parole dans les commentaires !
- Partager l'article :