Le mode vocal, une révolution pour ChatGPT ? 10 exemples incroyables des 1ers testeurs

Bastien L. 1 août 2024 5 minutes de lecture Intelligence artificielle

ChatGPT Advanced Vocal Mode est enfin disponible en version Alpha, et les premiers testeurs partagent des idées de cas d’usage totalement fascinantes sur les réseaux sociaux. Découvrez 10 exemples pour comprendre comment cette fonctionnalité peut réellement accroître l’intérêt de l’IA !

En mai 2024, OpenAI présentait pour la première fois le mode vocal de GPT-4o. Cette fonctionnalité avait choqué le public, notamment en raison de sa réactivité et de la sonorité naturelle de sa voix.

Toutefois, le lancement de ChatGPT Advanced Voice Mode a été repoussé dans le but de renforcer ses barrières de sécurité (pour éviter la création de DeepFakes et autres abus potentiels).

Ce 1er août 2024, OpenAI vient enfin de lancer cette nouvelle version en alpha auprès d’un petit groupe d’utilisateurs de ChatGPT Plus. Tous les utilisateurs pourront y accéder dans le courant de l’automne 2024 !

Néanmoins, la firme précise que les capacités de vidéo et de partage d’écran présentées pendant l’événement Spring Update ne seront pas disponibles dans cette phase alpha. Leur lancement sera ultérieur.

ChatGPT peut maintenant vous parler et détecter vos émotions

Vous avez peut-être déjà essayé le Mode Vocal (Voice Mode) déjà disponible sur ChatGPT, mais le Advanced Voice Mode est totalement différent.

Jusqu’à présent, le mode vocal utilisait trois modèles : un pour convertir votre voix en texte, GPT-4 pour traiter votre prompt, et un troisième modèle pour convertir le texte de ChatGPT à l’oral.

Or, GPT-4o est multimodal et peut donc traiter toutes ces tâches sans avoir recours à des modèles auxiliaires. Les conversations sont donc sans aucune latence, et cette IA peut même détecter les intonations émotionnelles dans votre voix.

Elle peut notamment reconnaître la tristesse, l’excitation ou le chant. Désormais, les utilisateurs vont enfin pouvoir faire leurs propres tests !

La voix de Scarlett Johansson n’est pas au rendez-vous

Lors de la présentation initiale en mai 2024, l’une des voix de GPT-4o, Sky, ressemblait étonnamment à celle de Scarlett Johansson.

Un clin d’oeil au film Her, dans lequel l’actrice américaine prête sa voix à un assistant vocal doté d’une intelligence artificielle extrêmement avancée.

Toutefois, après cette démo, Johansson a expliqué avoir refusé à de multiples reprises la demande du CEO d’OpenAI, Sam Altman, d’utiliser sa voix.

Elle s’est estimée usurpée, et a recruté un conseil légal pour se défendre. Sur le moment, OpenAI a nié avoir utilisé sa voix. Pourtant, elle ne sera finalement pas disponible sur Advanced Voice Mode.

Lors du lancement, les utilisateurs pourront choisir parmi 4 voix : Juniper, Breeze, Cove et Ember. Ces voix ont été créées en collaboration avec des doubleurs rémunérés.

OpenAI fait tout pour empêcher les DeepFakes

La porte-parole d’OpenAI, Lindsay McCallum, rassure aussi en précisant que « ChatGPT ne peut pas imiter la voix d’autres personnes, qu’il s’agisse d’individus ou de personnalités publiques, et bloquera les sorties qui diffèrent de l’une de ces voix prédéfinies ».

Il semble clair que la firme fait tout son possible pour éviter les polémiques liées aux DeepFakes. En janvier 2024, la startup ElevenLabs a fait l’objet d’une controverse lorsque sa technologie a été utilisée pour imiter Joe Biden et tromper les électeurs du New Hampshire.

En outre, OpenAI a introduit des filtres afin de bloquer certaines requêtes visant à générer de la musique ou de l’audio protégé par droits d’auteur.

Plusieurs startups spécialisées dans les IA génératives de musique, comme Suno et Udio, ont fait l’objet de plaintes par les labels discographiques.

Comment tester GPT-4o Advanced Vocal Mode ?

Au cours des derniers mois, l’outil a été testé avec plus de 100 experts en cybersécurité externes dans un total de plus de 45 langues différentes. Un rapport sur ces tests de sécurité va être publié début août 2024.

Afin de bien surveiller l’utilisation de ce nouveau mode vocal, OpenAI préfère le déployer de façon très progressive. Les participants à la phase alpha recevront une alerte dans leur application ChatGPT, suivie d’un email avec les instructions pour l’utiliser.

Si vous n’avez pas reçu cette alerte, vous devrez donc patienter jusqu’à l’automne pour pouvoir enfin tester ce nouvel outil !

Les premiers testeurs font déjà des choses fascinantes

À peine 24 heures après le lancement alpha de GPT-4o Advanced Vocal Mode, les premiers testeurs imaginent déjà des cas d’usage géniaux et les partagent sur les réseaux. En voici 10 exemples.

Sur X, l’expert en design de réalité mixte Manuel Sainsily s’est servi de GPT-4o comme d’un ami. À l’aide de la caméra de son smartphone, il lui a présenté l’environnement qu’il a installé pour son nouveau chaton et l’IA a pu lui donner des conseils et répondre à ses questions en temps réel !

Real-Time Japanese translation using #ChatGPT’s new advanced voice mode + vision alpha! Yet another useful example! pic.twitter.com/wDXrgYQkZE
— Manuel Sainsily (@ManuVision) July 31, 2024

Il a aussi filmé sa GameBoy Advance avec une cartouche de jeu Pokémon en japonais, et ChatGPT a pu lui traduire en temps réel. Impressionnant ! Cette IA va se révéler très utile pour les voyages à l’étranger !

L’expert en IA Cristiano Giardina, de son côté, a demandé à GPT Voice de compter jusqu’à 50 aussi vite que possible. Il a été impressionné par la façon dont l’IA fait des pauses pour reprendre sa respiration à la manière d’un humain…

Interestingly, the transcript has no interruptions or notations – the voice model has simply learned natural speaking patterns, which includes breathing pauses. Uncanny. pic.twitter.com/jFJWMC68mi
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Il lui a également demandé de parler en japonais sur un ton excité, et force est d’admettre qu’on se croirait devant un manga.

ChatGPT Advanced Voice Mode speaking Japanese (excitedly) pic.twitter.com/YDL2olQSN8
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Un autre test effectué par cet utilisateur est de faire parler GPT comme un pilote d’avion s’adressant aux passagers via l’interphone.

Le co-fondateur de l’entreprise Squad, Ethan Sutin, a salué le talent de GPT-4o pour le beatbox. Il est même possible de lui demander de faire une note précise !

Any musicians out there know if this is the right chord? pic.twitter.com/ymy2Enfav7
— Ethan Sutin (@EthanSutin) July 30, 2024

Il a aussi demandé au chatbot de présenter les différents accents des États-Unis. On a hâte de faire le même test pour les accents français !

a tour of US regional accents pic.twitter.com/Q9VypetncI
— Ethan Sutin (@EthanSutin) July 31, 2024

Ce testeur lui a aussi demandé d’imiter le Micro Machines Man, et le chatbot a là encore relevé le défi avec brio.

Micro machines pic.twitter.com/hnGiGmPV8l
— Ethan Sutin (@EthanSutin) July 31, 2024

Le modérateur du Discord d’OpenAI, Kesku, a demandé à l’IA de lui raconter une histoire de science-fiction en incluant des onomatopées. Le résultat est là encore très réussi.

This is awesome actually

I did not expect the ominous sounds https://t.co/SgEPi5Bd3K pic.twitter.com/DnK8AVdWjV
— kesku (@yoimnotkesku) July 30, 2024

Un autre utilisateur dénommé Benjamin a demandé à GPT de parler en imitant Dracula. Le résultat fait froid dans le dos…

and to answer the burning question on everyone’s minds: yes, this puppy is fully capable of going dracula mode https://t.co/2BXnMEE27B pic.twitter.com/h5oTJMMFbH
— benjamin (@ikeadrift) July 30, 2024

Il ne s’agit que d’un début, et les utilisateurs vont pouvoir laisser libre cours à leur créativité pour imaginer de nombreux cas d’usage…

Alors, qu’en pensez-vous ? Ce nouveau mode vocal est-il utile au point de donner une toute nouvelle envergure à ChatGPT ? Quels sont les cas d’usage qui vous intéressent le plus ? Partagez votre avis en commentaire !