meta audiocraft

Meta lance une IA pour créer vos musiques avec des prompts : testez gratuitement

dévoile AudioCraft : une suite d'outils IA permettant de générer de la musique et des effets audio à partir d'une simple description textuelle. Découvrez tout ce qu'il faut savoir et comment les essayer dès à présent !

En moins d'un an, l'intelligence artificielle a totalement chamboulé l'univers de la création artistique. Les générateurs d'art comme DALL-E et permettent à n'importe qui de créer de magnifiques images à partir d'une simple description textuelle.

De même, les robots conversationnels comme ChatGPT sont déjà utilisés pour écrire des livres et des scénarios de films. Tout un chacun peut désormais donner vie à son imagination, sans avoir besoin de talent ou de technique…

Pour certains, c'est l'aube d'un nouvel âge d'or pour la créativité. Pour d'autres, il s'agit purement et simplement de la mort de l'art.

De nombreux artistes accusent les générateurs d'images de plagier leurs œuvres, et les scénaristes d'Hollywood ont lancé un mouvement de grève pour protester contre leur remplacement par les machines.

 

Et le domaine de la musique n'échappe pas à ce grand bouleversement. L'intelligence artificielle est utilisée pour générer de fausses chansons d'artistes connus, imitant leur voix et leur style à la perfection, provoquant l'ire des maisons de disque.

Dans ce contexte déjà tendu, le mercredi 2 août 2023, Meta vient d'annoncer le lancement d'une suite d'outils d'IA générative open source permettant de créer de la musique et de l'audio à partir de prompts textuels : AudioCraft.

AudioGen, MusicGen et EnCodec : trois générateurs IA text-to-audio !

À l'aide de ces outils, les créateurs de contenus peuvent générer des paysages audio complexes, composer des mélodies ou même simuler de véritables orchestres virtuels à partir d'un simple texte de description !

La suite se compose de trois composants principaux : AudioGen pour créer des effets sonores et des sons d'ambiance, MusicGen pour composer des mélodies, et EnCodec qui est un codec de compression audio basé sur un réseau de neurones.

Déjà dévoilé fin 2022, EnCodec a reçu de nombreuses améliorations et permet désormais de générer de la musique « de qualité supérieure avec moins d'artefacts » selon Meta.

De son côté, AudioGen permet de créer des effets audio comme un aboiement de chien, un klaxon de voiture, ou même des bruits de pas sur un sol en bois.

Enfin, MusicGen peut générer des chansons dans une large variété de styles en partant de zéro. Il suffit par exemple de lui fournir une description comme « Chanson de danse pop avec mélodies entraînantes, percussions tropicales, rythmes enjoués, parfaite pour la plage ».

https://scontent-cdg4-1.xx.fbcdn.net/v/t39.8562-6/363993863_628036679459080_2502438382542663160_n.mp3?_nc_cat=110&ccb=1-7&_nc_sid=ad8a9d&_nc_ohc=khIXjh00yusAX_sTsPu&_nc_ht=scontent-cdg4-1.xx&oh=00_AfAeVJSViG-3fYjEN_1kD1ZVr2qUtzN4ZvPy_jCiEiJR-A&oe=64D18636

Autant dire qu'il n'y aura bientôt plus besoin de passer 10 ans dans un conservatoire pour être capable de composer toutes les idées de chansons qui vous trottent dans la tête… pour le meilleur comme pour le pire ?

L'IA musicale en retard sur l'image et le texte

Plusieurs échantillons audio ont été mis en ligne par Meta en guise de démonstration. Pour l'heure, même si le résultat est impressionnant, la qualité n'est pas suffisante pour égaler des effets sonores ou des musiques produits par des professionnels.

Si les modèles d'IA générative centrés sur le texte et les images ont reçu beaucoup d'attention et sont accessibles à tous sur le web, les outils dédiés à l'audio sont à la traîne.

Comme le souligne la firme de Zuckerberg, « il y a des outils dans ce domaine, mais c'est hautement compliqué et pas très ouvert, donc les gens ne sont pas en mesure de jouer facilement avec ».

Par exemple, OpenAI a lancé JukeBox en 2020 et Google a dévoilé MusicLM en janvier 2023. En décembre 2022, une équipe de chercheurs a aussi créé la plateforme text-to-music Riffusion à partir de l'IA Stable Diffusion.

Aucun de ces projets n'a autant suscité l'attention du grand public que les générateurs d'image comme MidJourney ou le célèbre . Pourtant, leur processus de développement est encore plus complexe.

Sur son site web, Meta explique que « générer de l'audio haute-fidélité de n'importe quel type requiert de modéliser des signaux complexes et des patterns à différentes échelles. La musique est le type d'audio le plus difficile à générer puisqu'elle est composée de patterns locale et à longue portée, d'une suite de notes à une structure musicale globale avec de multiples instruments ».

Ainsi, « générer de la musique cohérente avec l'IA a souvent été approché avec l'usage de représentations symboliques comme le MIDI ou les rouleaux de piano, mais ces approches ne permettent pas de saisir pleinement les nuances expressives et les éléments stylistiques qu'on trouve dans la musique ».

Plus récemment, « les dernières avancées exploitent l'apprentissage de représentation audio auto-supervisé et un certain nombre de modèles hiérarchiques ou en cascade pour générer de la musique, en nourrissant un système complexe d'audio brut pour capturer les structures à longue portée dans le signal tout en générant de l'audio de qualité ».

Enfin le MidJourney de la musique ?

Avec AudioCraft relaxé sous la licence MIT, Meta espère démocratiser la génération de musique en fournissant un outil facile d'accès pour l'expérimentation.

Dès aujourd'hui, « les modèles sont disponibles à des fins de recherche et pour accroître la compréhension de la technologie par les gens ».

L'entreprise se dit « excitée de donner l'accès aux chercheurs et praticiens pour qu'ils puissent entraîner leurs propres modèles avec leurs jeux de données pour la première fois et d'aider à faire progresser l'état de l'art ».

Même si AudioCraft risque de raviver la colère des artistes professionnels face à l'IA, soulignons que Meta a au moins le mérite de ne pas entraîner son modèle sur des œuvres protégées par droit d'auteur comme le font , ou MidJourney.

La firme américaine explique que MusicGen a été entraînée sur 20 000 heures de musique détenues par Meta ou fournie spécialement à cet effet. C'est un effort notable sur le plan éthique.

À présent, il ne reste qu'à voir comment les développeurs open source (peut-être vous ?) vont intégrer ces modèles audio dans leurs projets. On peut s'attendre à voir apparaître très prochainement des outils IA text-to-music intuitifs et simples d'utilisation.

Si vous souhaitez tenter de créer un tel générateur d'audio, vous pouvez trouver le code et les poids de modèle pour les trois outils AudioCraft sur GitHub en suivant ce lien !

 

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *