Nvidia dévoile Fugatto : l’IA qui crée des sons qui n’existaient pas avant !

Et si je vous disais qu’une IA pouvait inventer des sons totalement inédits, jamais entendus auparavant ? Que ce soit un saxophone qui aboie, une chorale d’ambulances chantantes, le bruit de l’eau qui coule se mêlant à une guitare acoustique ou d’autres idées folles… Avec Fugatto, le dernier bijou d’intelligence artificielle signé , tout est possible.

Nvidia vient de sortir une nouveauté qui va mettre le feu au monde de l’audio et de la musique. Il s’agit de Fugatto, un modèle capable de synthétiser des voix et de recréer des morceaux connus. Qui plus est, elle imagine des sons qui n’ont jamais existé. Et elle combine ensuite mélodie, bruitages et voix dans des créations inédites. Que vous soyez curieux d’entendre un banjo rire sous la pluie ou de transformer une guitare en cascade sonore, Fugatto promet de repousser les limites de votre imagination auditive.

Nvidia Fugatto compose des sons jamais entendus

Je sais que les IA qui synthétisent la parole ou composent de la musique, ce n’est pas du nouveau. Mais Fugatto pousse le concept encore plus loin. Nvidia décrit alors son modèle comme un « couteau suisse du son ». Cette IA ne se contente donc pas de reproduire des sons existants. Elle transforme, combine et crée de toutes pièces des univers sonores.

https://twitter.com/BoncomptePere/status/1861081330345222443

Sur le site de démonstration, il y a de tout ! Par exemple, des voix humaines modifiées comme si elles parlaient sous l’eau, des instruments transformés en créatures sonores bizarres. Ou encore des effets qui donnent l’impression qu’une machine d’usine crie en « agonie métallique ».

Ainsi, Fugatto s’appuie sur un système de guidage conditionnel, un outil nommé ComposableART. C’est comme un DJ fou qui peut mixer des sons et des instructions pour générer quelque chose de complètement nouveau. Que diriez-vous de demander un son qui combine un banjo et un rire de bébé ?

Créer un modèle à partir de rien

Par ailleurs, Nvidia a expliqué dans un article de recherche les galères rencontrées pour entraîner Fugatto. Là où les modèles de langage comprennent assez facilement les instructions textuelles, l’audio est un peu plus compliquée. Comment pourrait-on décrire un son et surtout, comment relier ces descriptions à des caractéristiques spécifiques ?

Alors la solution, c’était de générer des descriptions synthétiques. Les chercheurs ont donc utilisé des outils comme un modèle de langage pour créer des instructions très précises. Par exemple « synthétiser une voix joyeuse » ou « rendre un accent plus marqué ».

https://twitter.com/kimmonismus/status/1861079734261600486

Ensuite, les experts ont alimenté Fugatto avec des données provenant de 50 000 heures d’audio open source. Celles-ci sont annotées jusque dans les moindres détails, comme la réverbération ou la fréquence des sons. Ainsi, cela a donné un modèle titanesque de 2,5 milliards de paramètres est entraîné sur 32 cœurs Nvidia Tensor.

L’art de mélanger des mondes sonores

Ce que je trouve le plus génial avec Fugatto, c’est sa capacité à tout mélanger. En plus, avec cette IA, vous pouvez ajuster le « poids » de chaque élément dans le mix pour créer des résultats uniques.

Nvidia donne des exemples qui font vraiment rêver, comme transformer un accent français pour qu’il soit plus ou moins marqué, ou modifier l’émotion dans une voix, comme rendre un discours plus triste ou plus joyeux. Et vous pouvez également ajouter des sons improbables, comme des aboiements ou des bruits de machines, tout en respectant le rythme d’une chanson.

YouTube video

Toutefois, Nvidia insiste sur un point important. Fugatto n’est pas là pour remplacer les créateurs, mais pour les inspirer. « La musique est une histoire de technologie », explique Ido Zmishlany, producteur et auteur-compositeur. Il compare aussi cette innovation à l’invention de la guitare électrique ou du sampler, des outils qui ont changé à jamais la musique.

Pour l’instant, Fugatto n’est pas encore disponible au grand public, mais les applications possibles sont déjà impressionnantes. Je cite, le prototypage de chansons, les musiques interactives pour les jeux vidéo et les publicités adaptées à des publics internationaux…

En attendant, moi, je rêve déjà de composer des morceaux avec des chats qui miaulent en opéra ou des moutons qui bêlent en mode rap.

Et vous ? Si vous aviez Fugatto entre les mains, quelle combinaison sonore voudriez-vous essayer ? Partagez vos idées dans les commentaires !

Restez à la pointe de l'information avec LEBIGDATA.FR !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥