Connaissez-vous Nvidia Audio2Face ? Ce n’est plus un secret bien gardé réservé à l’équipe interne de l’entreprise. Désormais, tout le monde peut l’utiliser et même le personnaliser à sa guise.
Quand on parle d’outil open source, on pense souvent que seuls les développeurs peuvent en profiter. Avec Nvidia Audio2Face, c’est différent. Cette technologie d’animation faciale qui transforme une voix en mouvements de lèvres et en expressions réalistes ouvre des possibilités pour bien plus de monde.
Nvidia Audio2Face : des outils en cadeau
Pour ceux qui ne connaissent pas, Nvidia Audio2Face est un outil qui écoute une voix, que ce soit un enregistrement ou une conversation en direct. Ensuite, il transforme ce son en mouvements de lèvres et en expressions du visage.
Pour y arriver, il se base sur les sons qui composent les mots et sur la façon dont la voix monte et descend. Le résultat devient ensuite des animations appliquées à des personnages 3D.
Jusqu’ici, Audio2Face était surtout réservé aux démonstrations ou aux projets internes de Nvidia. Mais, aujourd’hui, l’outil est ouvert en open source. C’est-à-dire accessible à tous. L’objectif est de rendre la motion capture complexe aussi facile qu’un outil accessible et adaptable par tous.
Mais attention, open source ne veut pas dire que tout est permis. Il y a des obligations légales à respecter comme le droit d’auteur, le consentement ou le watermarketing. Sachez qu’Audio2Face n’est pas un outil pour créer des « deepfakes » à partir de visages existants.
Le plus intéressant dans tout ça ? NVIDIA fournit tout le nécessaire. D’abord, un kit de développement (SDK). Puis des extensions pour Unreal Engine et Maya. Vous avez aussi droit à un environnement pour entraîner l’IA sur de nouvelles langues ou voix, ainsi que des modèles pré-entraînés.
Tout le monde aura sa part
Alors, NVIDIA Audio2Face en open source, qu’est-ce que ça change ? Tout le monde peut examiner le code et adapter les modèles à ses besoins. Et non, ce n’est pas réservé aux développeurs.
Les joueurs y trouvent aussi leur compte ! Ils profitent aussi de dialogues beaucoup plus réalistes. Les personnages secondaires paraissent enfin humains. On voit plus de nuances dans leurs expressions.
Pour les créateurs, le gain est aussi énorme. Ils peuvent en effet rejouer une scène avec un nouvel audio sans tout refaire en motion capture. Les doublages multilingues deviennent plus fluides. Les streamers ou VTubers peuvent animer leurs avatars en direct. Cela avec une qualité digne des grosses productions.
Les entreprises et écoles peuvent aussi en profiter : assistants virtuels, bornes interactives ou avatars pédagogiques gagnent immédiatement en naturel.
Bien sûr, tout n’est pas parfait. Il y a quelques limites qu’il faut connaître. Pour une animation fluide, il faut évidemment un GPU moderne. Un bon rig 3D et un enregistrement clair sont essentiels. Selon la langue ou l’accent, la qualité peut aussi varier.
- Partager l'article :