trois modèles d’IA vocale d'OpenAI

OpenAI améliore son Mode Vocal : voici toutes les nouveautés

franchit un pas de plus dans l’univers de l’IA vocale. L’entreprise, connue pour , annonce trois nouveaux modèles disponibles via son API.

OpenAi sort 3 modèles d’IA vocale

L’annonce met en avant -4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Ces modèles s’appuient sur GPT-4o, sorti en mai 2024. Jeff Harris, membre du personnel technique d’OpenAI, déclare que « ce lancement est axé sur les utilisateurs d’API ». ChatGPT n’intègre pas ces outils tout de suite. Les modèles remplacent Whisper, un ancien outil source. Les développeurs et les curieux peuvent déjà les tester sur OpenAI.fm dès maintenant.

Ces modèles gagnent en précision avec un taux d’erreur de gpt-4o-transcribe réduit à 2,46 % en anglais. Ils gèrent mieux les accents, les bruits de fond et les variations de vitesse dans plus de 100 langues. Harris souligne l’ajout d’un détecteur d’activité vocale sémantique, un outil qui repère quand un locuteur termine une idée. En revanche, l’IA vocale d’OpenAI ne distingue pas plusieurs voix simultanées. Une seule voix ressort malgré de multiples entrées.

">

Un outil qui s’adresse aussi aux développeurs

Le modèle gpt-4o-mini-tts permet de modifier les voix, l’accent, le ton ou l’émotion via un texte. Lors d’une démo, une voix passe de scientifique fou à professeur de yoga calme. OpenAI évite ainsi les polémiques passées, comme avec Scarlett Johansson. Un concours sur OpenAI.fm invite même le public à tester ces options. Le prix est une radio Teenage Engineering avec le logo OpenAI, limitée à trois exemplaires mondiaux

Ces modèles d’IA vocale d’OpenAi conviennent tout de même aux développeurs d’applications simples. grâce au SDK Agents. Cet outil récent aide les développeurs à intégrer la voix dans leurs applications déjà existantes. Avec seulement neuf lignes de code, ils peuvent faire en sorte que l’app comprenne et répond à des commandes vocales de manière fluide. Cette technologie convertit le son en texte et le texte en son presque instantanément. Cependant, si une application a besoin de réactions ultrarapides et en temps réel, il vaut mieux utiliser l’API Realtime.

YouTube video

Mais à quel prix ? 

OpenAI propose des prix clairs pour ses modèles d’IA vocale.  Gpt-4o-transcribe coûte 0,006 dollar par minute, tandis que gpt-4o-mini-tts revient à 0,015 dollar par minute de sortie audio. Côté concurrence, ElevenLabs offre son modèle Scribe à un tarif similaire, avec un taux d’erreur de 3,3 %. Hume AI mise sur une personnalisation fine avec Octave TTS. Des options open source comme Orpheus 3B émergent aussi, gratuites avec le bon matériel.

Les entreprises testent déjà ces outils. EliseAI, dans l’immobilier, améliore ses échanges avec les locataires grâce à des voix plus naturelles. Decagon gagne 30 % de précision sur ses transcriptions, même dans le bruit. Mais certains, comme Ben Hylak sur X, doutent d’un recul sur la voix en temps réel. Une fuite avant l’annonce, relayée par TestingCatalog News, a aussi agité la communauté. Malgré cela, OpenAI prévoit des améliorations de son IA vocale et explore la vidéo pour des agents multimodaux.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥