MusicLM est une nouvelle IA dévoilée par les chercheurs de Google, capable de produire une musique à partir d’un prompt de description textuelle. Les exemples de démonstration sont bluffants, mais la firme de Mountain View se refuse à mettre ce puissant outil entre les mains du grand public…
Le succès de ChatGPT fait paniquer les GAFAM. Alors que Meta et Google abordaient jusqu’à présent l’IA avec une grande prudence, la percée d’OpenAI les pousse désormais à accélérer.
Même si Google a créé son propre chatbot IA dénommé Sparrow, la firme comptait attendre plusieurs années pour l’ouvrir au grand public. Face à l’intention de Microsoft d’intégrer ChatGPT à son moteur de recherche Bing et tous ses produits, le géant californien n’a d’autre choix que de suivre la cadence.
Devant cette menace, Google a même rappelé ses fondateurs pour préparer la contre-attaque. En parallèle, un peu comme pour montrer ses muscles, la firme vient à présent de dévoiler une IA capable de générer de la musique à partir de prompts textuels : MusicLM.
Une IA capable de générer des musiques à partir de prompts
À la manière dont DALL-E crée des images basées sur les descriptions fournies par l’utilisateur, MusicLM peut produire des oeuvres musicales de plusieurs minutes à partir d’un simple prompt. Cette IA est même capable de transformer les sifflements et fredonnements en mélodies instrumentales.
Comme à son habitude, Google se refuse à livrer cet outil aux internautes. La firme craint notamment que sa réputation soit entachée en cas de performances décevantes.
Néanmoins, plusieurs exemples impressionnants viennent d’être présentés sur GitHub à cette adresse. Il s’agit notamment d’échantillons sonores de 30 secondes, créés à partir de paragraphes décrivant le genre, l’ambiance, ou encore les instruments à utiliser.
Vous pouvez aussi écouter des musiques de cinq minutes générées à partir de seulement un ou deux mots comme « techno mélodique ». Les résultats sont impressionnants, et dignes de musiques produites par des humains.
En outre, le « story mode » permet à MusicLM de suivre un script pour alterner entre les prompts. Ceci permet entre autres de changer de musique au fil d’une vidéo.
Dans l’exemple dévoilé par Google, l’IA commence par 15 secondes de musique électronique de jeu vidéo, et poursuit avec 15 secondes de musique de méditation au bord d’une rivière, avant de ponctuer par des sons de feu d’artifice.
La page de démonstration comporte aussi des clips d’une durée de dix secondes pour différents instruments comme les maracas ou le violoncelle, et des clips de huit secondes d’un genre spécifique comme une « musique d’évasion de prison » ou même la différence entre un pianiste débutant et un expert.
Cette intelligence artificielle est même capable de simuler des voix, même si la qualité n’est pas toujours au rendez-vous pour le moment. Notons aussi que les paroles n’ont absolument aucun sens, mais cela ne change pas vraiment du rap ou de la pop actuellement produits par des êtres humains…
Pour tout savoir sur le fonctionnement de MusicLM, vous pouvez consulter l’article scientifique complet publié par Google à cette adresse. Vous découvrirez notamment comment les chercheurs ont entraîné l’IA pour atteindre un tel résultat.
Un nouveau cap pour la musique générée par IA
La musique générée par intelligence artificielle est loin d’être une nouveauté. Il existe déjà des artistes composant des musiques pop à l’aide de l’IA comme Taryn Southern.
En 2016 déjà, DeepMind dévoilait une IA DeepBach capable d’imiter le style de Johann Sebastian Bach. Plus récemment, l’outil Riffusion basé sur StableDiffusion transforme les prompts textuels en spectrogrammes pouvant être convertis en musique.
Toutefois, les chercheurs de Google affirment que MusicLM peut surpasser les autres systèmes existants en termes de « qualité et d’adhérence à la description ». Cette IA peut également recevoir de l’audio en guise d’input et copier la mélodie.
Le site de démo permet d’ailleurs de comparer un input sous forme de sifflement et la reproduction jouée par un synthétiseur électronique, un quatuor d’instruments à cordes ou encore un solo de guitare.
Google prudent face aux risques de dérives
Malgré les performances impressionnantes et le potentiel commercial de MusicLM, Google préfère une nouvelle fois avancer avec prudence. Comme pour ses autres IA, la firme déclare n’avoir « aucun projet de relaxe à l’heure actuelle » pour ce modèle.
Elle évoque notamment les risques potentiels de plagiat et « d’appropriation de contenu créatif », et les dangers d’appropriation ou de mauvaise représentation culturelle.
Pour l’heure, seuls les chercheurs et les développeurs de systèmes musicaux basés sur l’IA peuvent accéder à cet outil. En revanche, Google compte publier le jeu de données contenant environ 5500 paires musique / texte afin d’aider à l’entraînement et l’évaluation d’autres IA musicales.
https://www.youtube.com/watch?v=oNHfhZtnCts
- Partager l'article :
L’intelligence artificielle commence à être pénible à force d’en entendre parler avec enthousiasme, comme si nous étions des benêts face à une soucoupe volante. Ceci dit, concernant la musique, étant données les piètres productions de l’intelligence humaine dans de nombreux domaines tels que le Hip Hop ou le Rap par exemple, on peut penser que cela ne pourrait pas être pire avec l’intelligence artificielle. Sans oublier bien sûr qu’il faudra, si ce n’est pas déjà fait, inventer bien vite la bêtise artificielle puisque la bêtise naturelle, contrairement à l’intelligence, semble être ce qu’il y a de plus fréquent par les temps qui courent.