OpenAI franchit un pas de plus dans l’univers de l’IA vocale. L’entreprise, connue pour ChatGPT, annonce trois nouveaux modèles disponibles via son API.
OpenAi sort 3 modèles d’IA vocale
L’annonce met en avant gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Ces modèles s’appuient sur GPT-4o, sorti en mai 2024. Jeff Harris, membre du personnel technique d’OpenAI, déclare que « ce lancement est axé sur les utilisateurs d’API ». ChatGPT n’intègre pas ces outils tout de suite. Les modèles remplacent Whisper, un ancien outil open source. Les développeurs et les curieux peuvent déjà les tester sur OpenAI.fm dès maintenant.
Ces modèles gagnent en précision avec un taux d’erreur de gpt-4o-transcribe réduit à 2,46 % en anglais. Ils gèrent mieux les accents, les bruits de fond et les variations de vitesse dans plus de 100 langues. Harris souligne l’ajout d’un détecteur d’activité vocale sémantique, un outil qui repère quand un locuteur termine une idée. En revanche, l’IA vocale d’OpenAI ne distingue pas plusieurs voix simultanées. Une seule voix ressort malgré de multiples entrées.
Un outil qui s’adresse aussi aux développeurs
Le modèle gpt-4o-mini-tts permet de modifier les voix, l’accent, le ton ou l’émotion via un texte. Lors d’une démo, une voix passe de scientifique fou à professeur de yoga calme. OpenAI évite ainsi les polémiques passées, comme avec Scarlett Johansson. Un concours sur OpenAI.fm invite même le public à tester ces options. Le prix est une radio Teenage Engineering avec le logo OpenAI, limitée à trois exemplaires mondiaux.
Ces modèles d’IA vocale d’OpenAi conviennent tout de même aux développeurs d’applications simples. grâce au SDK Agents. Cet outil récent aide les développeurs à intégrer la voix dans leurs applications déjà existantes. Avec seulement neuf lignes de code, ils peuvent faire en sorte que l’app comprenne et répond à des commandes vocales de manière fluide. Cette technologie convertit le son en texte et le texte en son presque instantanément. Cependant, si une application a besoin de réactions ultrarapides et en temps réel, il vaut mieux utiliser l’API Realtime.
Mais à quel prix ?
OpenAI propose des prix clairs pour ses modèles d’IA vocale. Gpt-4o-transcribe coûte 0,006 dollar par minute, tandis que gpt-4o-mini-tts revient à 0,015 dollar par minute de sortie audio. Côté concurrence, ElevenLabs offre son modèle Scribe à un tarif similaire, avec un taux d’erreur de 3,3 %. Hume AI mise sur une personnalisation fine avec Octave TTS. Des options open source comme Orpheus 3B émergent aussi, gratuites avec le bon matériel.
Les entreprises testent déjà ces outils. EliseAI, dans l’immobilier, améliore ses échanges avec les locataires grâce à des voix plus naturelles. Decagon gagne 30 % de précision sur ses transcriptions, même dans le bruit. Mais certains, comme Ben Hylak sur X, doutent d’un recul sur la voix en temps réel. Une fuite avant l’annonce, relayée par TestingCatalog News, a aussi agité la communauté. Malgré cela, OpenAI prévoit des améliorations de son IA vocale et explore la vidéo pour des agents multimodaux.
- Partager l'article :