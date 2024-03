C’est au tour d’Alibaba de s’aventurer dans la course à l’IA. Avec Emo (Emote Portrait Alive), le géant du commerce mondial pourrait rivaliser avec les leaders du milieu. En effet, cet outil propose des fonctionnalités assez particulières. Oui, Emo est capable d’animer une photo, et de générer une vidéo à partir de cette dernière.

Les chercheurs de l’Institute for Intelligent Computing d’Alibaba viennent d’annoncer le fruit de leur travail. Ils ont réussi à créer une IA apte à animer des images. C’est le fameux outil Emo. Et il sera une référence d’ici peu. En effet, l’IA d’Alibaba est un pionnier dans son domaine. Peu d’entreprises ont essayé de lancer une intelligence artificielle du genre. Comme quoi, les idées ne manquent pas dans le secteur de la high-tech.

Emo, l’IA d’Alibaba capable de faire chanter les photos

« Les techniques traditionnelles ne parviennent souvent pas à capturer le spectre complet des expressions humaines et le caractère unique des styles de visages individuels. Pour résoudre ces problèmes, nous proposons EMO, un nouveau cadre qui utilise une approche de synthèse audio-vidéo directe, évitant ainsi le besoin de modèles 3D intermédiaires ou de repères faciaux » Linrui Tian, auteur principal de l’étude.

Emo ouvre alors les portes à d’autres formes de vidéo. Avec une simple photo, l’outil peut créer des mouvements de visage réalistes. En effet, l’algorithme est capable d’imiter la mimique humaine. Et ce n’est pas tout. L’IA d’Alibaba peut aussi fournir des pistes audio afin de « faire parler » une image. Qu’il s’agisse d’une chanson, ou d’un simple discours, Emo sera alors la référence dans ces catégories.

« Les résultats expérimentaux démontrent qu’Emo est capable de produire non seulement des vidéos parlantes et convaincantes, mais également des vidéos de chants dans différents styles, surpassant considérablement les méthodologies de pointe existantes en termes d’expressivité et de réalisme » extrait de l’étude.

À noter que cette recherche est déjà publiée sur la plateforme arXiv. Les spécialistes attendent actuellement les critiques de leurs pairs.

« Diffusion Model », la technique utilisée par Emo

L’IA d’Alibaba se fonde sur des bases solides. En effet, les chercheurs ont d’abord passé des semaines à concevoir un modèle capable de traiter plusieurs types de données. Plus de 250 heures de vidéos sont à la disposition de l’IA. Discours, films, émissions de télévision, concerts, etc. De quoi fournir des rendus uniques pour les utilisateurs.

C’est ici que la magie opère. Emo convertit directement les ondes sonores de ces contenus en vidéo. C’est la technique « diffusion model ». Les résultats seront alors plus naturels, plus réalistes, dignes d’une IA performante.

Et ce n’est pas tout. Les chercheurs d’Alibaba ont ensuite testé leurs outils auprès de quelques utilisateurs. Ces derniers ont généré les vidéos. Leurs conclusions sont unanimes. Emo est capable de fournir des vidéos de qualité, avec des rendus naturels et émouvants. Et cette dose de sentiment humain va propulser l’IA d’Alibaba vers le sommet. En effet, les autres IA sont en difficulté lorsqu’il s’agit de donner une émotion à l’IA.

