Stability AI vient de lancer Stable Audio 2.0 : une IA générative de musique, qui permet non seulement de créer des chansons, mais aussi de les modifier à partir d’un prompt textuel. Découvrez tout ce qu’il faut savoir sur ce puissant outil !
Avec sa V3, lancée le 21 mars 2024, Suno s’est imposé comme le champion des IA de type Text-to-Audio permettant de créer de la musique à partir d’un simple prompt.
Un outil impressionnant, capable de mélanger les styles musicaux et de combiner les instruments avec des voix réalistes pour donner vie à de véritables chansons en se basant sur vos paroles.
Toutefois, c’était sans compter sur Stability AI, leader de l’IA open source notamment connu pour son générateur d’images Stable Diffusion.
À son tour, le 3 avril 2024, la startup vient de dévoiler Stable Audio 2. La première version avait été lancée en septembre 2023, et cette mise à jour risque de faire trembler Suno, Google MusicFX, Meta AudioCraft et tout le reste de la concurrence.
Comme l’explique Stability, cette version 2.0 permet de générer des chansons complètes d’une durée maximale de trois minutes avec une structure musicale cohérente en stéréo 44.1 Khz.
Là encore, un simple prompt en langage naturel suffit pour créer une musique de haute qualité. De quoi permettre à n’importe qui de créer une œuvre musicale à partir d’une inspiration passagère !
DiT : une technologie efficace pour générer de longues chansons
Cette IA exploite la technologie DiT mariant la technique de diffusion et les modèles de type Transformer.
Cette approche sera également adoptée par le futur générateur d’images Stable Diffusion 3, et se démarque de la technologie U-Net utilisée auparavant.
Ces deux architectures sont couramment utilisées dans le Machine Learning, mais le DiT consiste à raffiner le bruit aléatoire de façon incrémentale pour créer des données structurées.
C’est ce qui la rend particulièrement efficace pour les longues séquences de données. De son côté, U-Net se focalise sur la précision pour les générations courtes et devient moins performant sur les séquences plus longues et plus complexes.
La première IA audio-to-audio pour remixer vos musiques !
L’une des principales améliorations de Stable Audio 2 est la génération audio-to-audio. Cette fonctionnalité permet aux utilisateurs de transformer les échantillons sonores qu’ils téléchargent.
Elle est semblable à l’option img2img proposée par Stable Diffusion pour modifier les images. Les utilisateurs peuvent « uploader » leurs audio, et les métamorphoser à l’aide de prompts.
Ceci va conférer aux artistes et aux musiciens davantage de contrôle et de flexibilité pour générer des musiques, des effets sonores ou pour transférer des styles.
Avec l’audio-to-audio, Stable Audio ne commence plus le raffinage itératif à partir d’un bruit aléatoire, mais directement à partir du fichier audio initial pour le modifier afin qu’il corresponde au prompt de l’utilisateur.
Un dataset d’entraînement respectueux envers les artistes
À l’heure où de nombreuses polémiques liées au plagiat et au viol des droits d’auteurs entachent le monde de l’IA, Stability souligne avoir entraîné Stable Audio 2 uniquement sur un dataset acheté auprès de la bibliothèque de musique AudioSparx.
Ceci a permis à tous les artistes qui le souhaitaient de refuser que leurs musiques soient utilisées pour l’entraînement. De leur côté, ceux qui ont accepté de se prêter au jeu ont été rémunérés.
Stable Audio 2 vs Stable Audio 1 : une amélioration massive
Selon les premiers testeurs, l’amélioration par rapport à Stable Audio 1.0 est importante. Les musiques générées sont plus cohérentes, et la durée est doublée par rapport à la limite de 90 secondes de la première version.
Le style de prompting ressemble à celui de Stable DIffusion 1.5, et se focalise sur les étiquettes ou les mots-clés. En revanche, les prompts en langage naturel ne semblent pas produire de résultats satisfaisants.
Cette IA apparaît par ailleurs plus adéquate pour créer de la musique de fond que de véritables chansons. Elle a tendance à avoir des hallucinations et à créer des sons discordants sans rapport avec le prompt…
Stable Audio 2 vs Suno 3 : qui est le champion des IA de musique ?
Malheureusement, Stable Audio 2 n’est pas à la hauteur par rapport à Suno 3. En utilisant les mêmes prompts, même en adoptant le style de prompting de Stable Audio 2, Suno s’avère plus performant.
De plus, le prompting par mots clés n’est pas intuitif pour les débutants et peut limiter la créativité et la complexité du résultat.
Par exemple, un prompt Suno typique pourrait être : « Une chanson techno sur LeBigData, un site web dédié à l’actualité de l’IA ».
Pour obtenir un résultat semblable avec Stable Audio 2, il faudrait écrire un prompt comme « Format : Mix / Instruments : piano, basse, claviers, batteries / Genre : techno Sous-genre : hardtek ».
Outre cet aspect plus intuitif, Suno 3 continue à se démarquer par sa capacité à générer des paroles automatiquement à l’aide d’un LLM (large modèle de langage).
En termes de qualité de l’audio, Suno 3 est également loin devant puisque les musiques créées par Stable Audio manquent de créativité et de complexité structurelle. On ne retrouve pas les riffs, chœurs, ponts et variations qui font toute la richesse des musiques créées par Suno.
Les transitions entre les riffs de Stable Audio sont souvent abruptes, tandis que celles de Suno sont plus fluides et donc plus agréables à l’écoute.
Autre point faible de Stable Audio : il est beaucoup plus lent que Suno. C’est un lourd inconvénient pour les utilisateurs ayant besoin de produire des musiques rapidement.
Néanmoins, la fonctionnalité Audio-to-Audio reste la principale force de Stable Audio. Elle permet par exemple de siffler une mélodie qui vous trotte dans la tête et de laisser l’IA lui donner vie.
Les créateurs de Suno ont promis une fonctionnalité similaire, mais il faudra probablement attendre la V4 pour en profiter…
Quoi qu’il en soit, nous vous invitons à tester ces deux outils formidables qui permettent soudainement à tout un chacun de s’improviser musicien !
Malgré le récent départ du CEO Emad Mostaque fin mars 2024, Stability continue ses percées dans le domaine de l’IA open source au même titre que le Français Mistral.
Elle a notamment lancé l’IA de code informatique Stable Code Instruct 3B et développe son générateur de vidéo Stable Video Diffusion. Par ailleurs, Stable Diffusion 3 est attendu pour un peu plus tard cette année.
- Partager l'article :