OpenAI dévoile Voice Engine : une IA capable de cloner n’importe quelle voix en 15 secondes. Cet outil est impressionnant, mais présente aussi d’immenses dangers… à tel point que la firme hésite à le relâcher auprès du grand public ! Découvrez pourquoi…
L’essor des DeepFakes et des dangers qui l’accompagnent n’est pas près de s’estomper… bien au contraire. Après ChatGPT, DALL-E ou encore Sora, OpenAI vient de dévoiler sa nouvelle IA : Voice Engine.
Cet outil révolutionnaire est capable de cloner n’importe quelle voix humaine, à partir d’un simple échantillon de 15 secondes. Elle génère une copie synthétique de votre voix.
Développée en catimini depuis deux ans, il s’agit d’une extension de l’API text-to-speech déjà existante de l’entreprise. Toutefois, face aux risques immenses qu’elle implique, OpenAI s’interdit de la relâcher au grand air…
Une IA développée en secret depuis 2 ans
Selon Jeff Harris d’OpenAI, le modèle d’IA générative derrière Voice Engine est en réalité le même que ChatGPT utilise pour ses fonctions vocales. Il se cache aussi derrière les voix préconfigurées de l’API text-to-speech.
Par ailleurs, suite à un partenariat confidentiel, Spotify l’utilise depuis septembre 2023 pour générer le doublage des plus gros podcasteurs dans toutes les langues. Ceci concerne par exemple Lex Fridman.
Concernant la provenance des données d’entraînement, OpenAI refuse de rentrer dans les détails. La firme confie seulement que le modèle a été entraîné sur un mélange de données disponibles publiquement, et achetées sous licence.
De toute évidence, il a fallu une immense quantité d’enregistrements vocaux en guise d’exemples pour apprendre à cette IA à cloner n’importe quelle voix. Quoi qu’il en soit, il est impossible de réellement vérifier d’où elles sont tirées.
Par le passé, OpenAI a déjà été accusé d’avoir dérobé la propriété intellectuelle d’autrui pour entraîner ses IA. Ceci inclut des photos, des œuvres d’art, des e-books ou encore des lignes de code protégées par droit d’auteur.
Lors d’une récente déclaration auprès de la Chambre des Lords du Royaume-Uni, la firme a admis qu’il est « impossible » de créer des modèles IA utiles sans contenu sous copyright…
Comment Voice Engine clone les voix si parfaitement ?
Afin de générer des voix, cette IA combine le processus de diffusion (comme Stable Diffusion) et la technologie de Transformer (comme GPT).
Un échantillon d’audio et de texte sont combinés pour générer un discours correspondant à la voix du locuteur.
Les données de l’échantillon et du texte à lire à l’oral sont analysées simultanément pour générer une voix identique sans avoir besoin de créer un modèle custom pour chaque utilisateur.
Cette technologie n’est pas nouvelle. Plusieurs startups proposent déjà des logiciels de clonage de voix depuis plusieurs années, comme ElevenLabs, Papercup, Deepdub ou Respeecher.
Même les géants de la tech comme Amazon, Google et Microsoft développent de telles technologies. Toutefois, Voice Engine a atteint un nouveau niveau en termes de qualité.
La fin des doubleurs humains ?
Cette nouvelle IA représente avant tout une menace pour l’industrie du doublage vocal. De nombreux travailleurs de ce domaine risquent d’être purement et simplement remplacés par l’IA plus rapide et moins chère.
Les entreprises et les professionnels en sont conscients, et ont déjà commencé à se préparer. En 2023, Replica Studios a signé un accord avec SAG-AFTRA pour créer des copies des voix des membres de la media artist union.
Selon les deux organisations, ce partenariat a établi des conditions équitables pour s’assurer que les doubleurs donnent leur consentement. Leurs voix synthétiques pourront être utilisées pour de nouveaux projets, notamment dans le domaine du jeu vidéo.
De son côté, ElevenLabs a créé une marketplace pour les voix synthétiques. Les utilisateurs peuvent créer une voix, la faire vérifier puis la partager publiquement.
Chaque fois qu’un autre utilisateur se sert d’une voix, le créateur est rémunéré. Il peut gagner un dollar pour 1000 caractères lus.
Néanmoins, OpenAI ne compte pas adopter de telle stratégie. La seule condition sera que les utilisateurs reçoivent le consentement explicite des personnes dont les voix sont clonées et indiquent clairement qu’elles sont générées par l’IA.
En outre, il sera interdit d’utiliser des voix de mineurs, de personnes décédées ou de personnalités politiques. La firme de San Francisco se dit « très curieuse » à l’idée d’observer la façon dont ce nouveau produit va impacter l’industrie du doublage vocal…
Une boîte de Pandore à ne surtout pas ouvrir
Au-delà d’un danger pour l’emploi, Voice Engine introduit surtout de terribles risques de sécurité. C’est pourquoi OpenAI n’a pas encore fixé de date de lancement, afin de déterminer comment éviter les abus.
Déjà dans le passé, les utilisateurs du forum 4chan se sont servis de la plateforme ElevenLabs pour diffuser des messages de haine en imitant la voix de célébrités comme Emma Watson.
Lors d’un test, le journaliste James Vincent de The Verge a été capable d’exploiter des outils IA pour cloner des voix et générer des discours de menaces violentes, ou encore des propos racistes et transphobes.
Un autre journaliste, le reporter Joseph Cox de Vice, a généré un clone de voix suffisamment convaincant pour tromper le système d’authentification d’une banque.
Avec un outil si puissant que Voice Engine, on peut craindre que des criminels utilisent l’IA pour déstabiliser les élections présidentielles. Déjà en janvier 2024, une campagne téléphonique s’est servie d’un deepfake de Joe Biden pour dissuader les citoyens du New Hampshire de voter.
Afin d’empêcher de telles dérives, OpenAI a restreint l’accès à Voice Engine à seulement une dizaine de développeurs pour le moment.
La firme priorise aussi les cas d’usage les moins risqués et les plus « socialement bénéfiques ». Ceci inclut notamment les applications dans le domaine de la santé et de l’accessibilité, ou encore dans les médias.
Parmi les premiers testeurs, on compte par exemple l’entreprise Age of Learning spécialisée dans la technologie éducative. Elle se sert de l’outil pour générer des doublages vocaux d’acteurs auxquels elle a fait appel.
De son côté, l’application narrative HeyGen exploite cette IA pour la traduction. Quant à Livox et Lifespan, elles utilisent Voice Engine pour créer des voix pour les personnes muettes ou handicapées.
Citons aussi Dimagi, qui crée un outil basé sur cette IA pour donner des retours aux travailleurs de la santé dans leurs langues maternelles.
En outre, les clones créés avec Voice Engine auront une watermark. Un système créé par OpenAI permet d’incorporer des identificateurs inaudibles dans les enregistrements. La firme envisage de rendre ce système open source pour que tous les outils similaires puissent l’utiliser.
Par la suite, OpenAI compte aussi laisser son réseau de testeurs experts en sécurité accéder à Voice Engine pour évaluer les dangers et les possibilités pour y remédier.
Malheureusement, il semble inexorable que des personnes trouvent des moyens de contourner ces barrières de sécurité et imaginent des cas d’usage maléfiques auxquels OpenAI n’aura même pas songé…
Prix et date de sortie
Selon le déroulement de la preview et les risques identifiés, OpenAI décidera ou non de déployer l’outil à davantage de développeurs et éventuellement au grand public.
Pour le moment, la firme préfère ne s’engager à rien. Elle teste actuellement un mécanisme de sécurité visant à forcer les utilisateurs à lire un texte généré aléatoirement pour s’assurer qu’ils sont présents et savent comment leur voix est utilisée.
La priorité d’OpenAI est de s’assurer que les gens ne risqueront pas de confondre les voix humaines et les voix générées par l’IA, et ce n’est que si cette condition est remplie que Voice Engine sera relâché.
Selon des documents marketing publiés brièvement par l’entreprise, on sait toutefois que Voice Engine sera facturé à 15 dollars par million de caractères ou pour environ 162 500 mots.
Cela représente environ 18 heures d’audio, soit environ 1 dollar par heure. C’est largement moins cher que la concurrence, avec par exemple un prix de 11 dollars par mois pour 100 000 caractères chez ElevenLabs.
C’est aussi nettement moins cher que les doubleurs humains, avec des tarifs allant de 12 à 79 dollars de l’heure sur ZipRecruiter.
Néanmoins, il ne sera pas possible d’ajuster le ton, la cadence ou le pitch de la voix comme le proposent les autres services. Une option HD sera toutefois proposée pour un prix doublé, mais on ignore les détails à l’heure actuelle…
Et vous, que pensez-vous de Voice Engine ? Faut-il laisser un tel outil à disposition du grand public, ou est-ce résolument trop risqué ? Partagez votre avis en commentaire !
- Partager l'article :