Le MIT et le Watson Lab d’IBM ont développé une intelligence artificielle capable de distinguer les instruments d’une musique. Pour ce faire, l’IA ne s’appuie pas sur le son, mais sur les mouvements corporels des musiciens.
L’intelligence artificielle s’invite de plus en plus dans le domaine artistique. Le Massachusetts Institute of Technology (MIT), toujours à la pointe de la technologie, annonce avoir développé une nouvelle IA en partenariat avec le Watson Lab d’IBM.
Cette IA est capable d’identifier la musique en observant uniquement les mouvements corporels des musiciens. Cet outil utilise les yeux et les oreilles virtuels d’un ordinateur pour différencier les sons les plus similaires.
L’IA se base en fait sur les points clés du squelette humain, capables de fournir d’importantes informations. C’est ce qui lui permet de distinguer les sons entre eux, en associant les mouvements de ces points clés avec le tempo de chaque instrument.
Pour lui conférer cette capacité, les chercheurs ont synchronisé des pistes audio et vidéo afin de recréer la façon dont les humains apprennent. Tout comme l’humain, l’IA peut apprendre plus vite en s’appuyant sur plusieurs sens.
Cette méthode permet aussi de réduire le volume de données nécessaires et le besoin d’étiqueter chacune d’entre elles. De nombreux experts pensent d’ailleurs que l’apprentissage multisensoriel représente le futur de l’IA en lui permettant de se rapprocher de l’intelligence humaine pour traiter des tâches plus complexes.
Comme l’humain, l’IA apprend plus vite en combinant ses sens
Cette nouvelle IA est en fait une version améliorée d’un modèle déjà existant, qui reconnaissant les mouvements dans des séquences d’images. Cet outil, intitulé PixelPlayer, permet aux utilisateurs de cliquer sur un instrument dans une vidéo de concert pour augmenter ou réduire son volume.
Une version mise à jour permettait déjà aux utilisateurs de distinguer deux violons dans un duet en associant le mouvement de chaque musicien avec le tempo de leur partie. Désormais, la nouvelle version améliorée par le MIT ajoute les données des points clés du squelette à l’équation.
D’ordinaire, ces données sont utilisées par les analystes sportifs pour suivre et mesurer les performances des athlètes. Appliquées ici au domaine de la musique, elles permettent d’extraire des données de mouvements très précises pour distinguer des sons quasiment identiques.
Cette étude démontre que les informations visuelles sont nécessaires pour permettre aux ordinateurs de mieux entendre. À l’inverse, les informations audio leur permettent d’avoir une vision plus précise. En effet, lors de précédentes études, les chercheurs ont utilisé les sons pour permettre à l’IA de distinguer des éléments visuellement similaires…
Il serait donc possible d’utiliser cet outil pour isoler chaque instrument d’une musique. Les applications potentielles sont nombreuses, notamment pour le mixage. Il serait par exemple possible d’augmenter le volume d’un instrument spécifique.
En outre, les applications de vidéo-conférence pourraient se tourner vers cet outil pour augmenter ou réduire la voix des interlocuteurs de façon automatisée.
- Partager l'article :