Meta vient de lancer MusicGen : une IA générative capable de créer de la musique à partir de prompts. Découvrez tout ce que vous devez savoir sur ce puissant outil, mais aussi sur la menace qu’il représente pour les artistes…

Depuis 2022, l’intelligence artificielle générative révolutionne la création de contenu. Parmi les outils les plus réputés, on compte ChatGPT et Google Bard pour le texte ou encore DALL-E et MidJourney pour les images.

À partir d’un simple prompt, une courte description textuelle, ces IA peuvent créer en s’inspirant des larges volumes de données sur lesquels elles ont été entraînées.

En juin 2023, c’est au tour de Meta de lancer la version open-source de sa propre IA générative : MusicGen. Cette fois, il s’agit d’un outil permettant de créer de la musique.

Comment ça marche ?

We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.

We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf — Felix Kreuk (@FelixKreuk) June 9, 2023

Comme l’explique le chercheur Felix Kreuk sur Twitter, MusicGen est capable de prendre une musique et de la modifier. Par exemple, elle peut créer une chanson pop des années 80 à partir d’un refrain de musique classique.

Le modèle utilise un tokenizer (générateur de jetons) audio EnCodec basé sur un modèle de langage de type Transformer.

Par défaut, les chansons n’incluent pas de paroles. Il est cependant possible d’ajouter une piste audio pour incorporer du chant.

Meta MusicGen vs Google MusicLM

En mai 2023, Google a également dévoilé sa propre IA de génération de musique : MusicLM. En comparaison, Meta fait valoir la simplicité de son outil.

En effet, MusicGen est un unique modèle de langage (LM) fonctionnant sur plusieurs flux de représentation musicale discrète compressée à savoir des tokens.

Il se compose d’un modèle LM transformer à un seul étage et de modèles d’entrelacement de jetons. Ceci élimine le besoin de cascader plusieurs modèles, par exemple de manière hiérarchique ou par suréchantillonnage.

Grâce à cette approche, Meta affirme que MusicGen peut générer des échantillons de haute qualité tout en étant conditionné sur une description textuelle ou des caractéristiques mélodiques.

Ceci permet de meilleurs contrôles sur la sortie générée. Afin de démontrer la supériorité de son approche, la firme propose sa propre page de comparaison avec MusicLM, Riffusion et Musai à découvrir à cette adresse.

Les défis de la génération de musique IA

Il existe déjà de nombreux modèles IA de génération de texte, d’images et de vidéos et de synthèse vocale. En revanche, les systèmes de génération de musique restent nettement plus rares.

Ceci s’explique par les défis à relever pour ce type d’outils. Le document de recherche accompagnant MusicGen et disponible sur arXiv à cette adresse offre un aperçu de ces challenges.

L’une des principales difficultés est que la génération de musique requiert l’exécution du spectre complet des fréquences. Or, ceci exige un échantillonnage plus intense.

En outre, la musique peut reposer sur des structures complexes et des instruments superposés. C’est pourquoi ce type d’outils est plus sophistiqué qu’une IA de génération de texte comme ChatGPT.

Le cauchemar de l’industrie musicale ?

Depuis plusieurs mois, l’industrie musicale panique face à l’essor de l’IA générative. Une fausse chanson de Drake et The Weeknd a connu un réel succès, au point de faire craindre un grand remplacement des artistes humains par l’IA.

Les labels comme Universal tentent de faire interdire ce type de contenu, prétextant qu’il s’agit d’une forme de plagiat. Sur Spotify, des chansons générées par l’IA sont écoutées par des robots formant une boucle infinie dont l’humain est exclu.

Même les Daft Punk ont avoué s’être séparés par peur de l’IA, tandis que la chanteuse Grimes se dit prête à partager ses bénéfices comme lors d’une collaboration avec un artiste humain.

Dans ce contexte de forte tension, MusicGen risque de créer la polémique à cause de la façon dont le modèle a été entraîné.

Selon le document de recherche, cette IA est entraînée sur 20 000 heures de musique sous licence issue d’un jeu de données interne incluant 10 000 pistes musicales.

De plus, l’entreprise a utilisé environ 390 000 pistes instrumentales tirées de Shutterstock et Pond5. Les chercheurs affirment toutefois que toute cette musique est « couverte par des accords légaux avec les ayants droit ».

Déjà en 2022, Shutterstock a signé un accord avec OpenAI : le créateur de DALL-E et ChatGPT. La firme possède aussi son propre outil de génération d’image IA pré-entraîné sur toutes les images de ses contributeurs.

Or, les artistes ne sont pas forcément d’accord pour que leur travail soit utilisé pour entraîner l’IA. Plusieurs d’entre eux ont déjà porté plainte contre les géants de l’IA générative comme MidJourney et Stability AI.

Ils les accusent de créer des jeux de données avec du contenu protégé par droit d’auteur sans demander le consentement. C’est donc une forme de plagiat automatisé.

Le problème s’amplifie avec un géant comme Meta, capable d’acheter les droits d’auteur de contenu créatif pour son IA générative.

Dès que l’oeuvre d’un artiste est intégrée au dataset d’une IA, elle peut être plagiée légalement à l’infini sans même qu’il puisse s’y opposer.

Les chercheurs de Meta admettent que l’IA « peut représenter une concurrence injuste pour les artistes ». Toutefois, en proposant leur modèle en open source, ils estiment qu’ils peuvent donner aux musiciens professionnels et amateurs de nouveaux outils pour donner vie à leurs idées…

Comment utiliser Meta MusicGen ?

Vous pouvez tester MusicGen par vous-même dès à présent par le biais de l’API Huggin Face à cette adresse.

Notez toutefois que la génération de musique peut prendre un peu de temps en fonction du nombre d’utilisateurs simultanés.

En guise d’alternative, vous pouvez utiliser le site de Hugging Face pour créer votre propre instance du modèle afin d’obtenir des résultats bien plus rapidement.

Il est également possible de télécharger le code à cette adresse et de l’exécuter vous-même, à condition d’avoir une machine suffisamment puissante et les connaissances requises.