Une IA transforme une collection d’images 2D en un monde 3D explorable

Karelie R. 5 novembre 2021 2 minutes de lecture Intelligence artificielle

Un algorithme d’IA peut transformer des images fixes en un monde 3D haute résolution et explorable. Cela ouvre de nouvelles perspectives pour les effets visuels des films et la VR.

🔥 Nous recommandons Gemini

Gemini transforme la manière dont vous interagissez avec l’IA, en combinant texte, images, audio et vidéo pour offrir des réponses et solutions multimodales. Que ce soit pour la rédaction, la programmation, ou l’analyse de données, Gemini fournit des outils puissants pour optimiser votre productivité. Disponible dans plusieurs produits Google comme Gmail, Google Docs, et Google Workspace, Gemini facilite la collaboration et l’efficacité au sein des équipes, quelle que soit leur taille.

Auparavant, la création d’images photoréalistes à partir de reconstructions 3D n’était pas entièrement automatisée. En outre, elle présentait des défauts notables. Désormais, l’IA offre la possibilité de créer un monde 3D exploitable à partir de deux images seulement. Cependant, ce système ne peut pas créer des choses qu’il n’a pas vues.

L’IA convertit les images 2D en 3D explorable

Darius Rückert et ses collègues de l’université d’Erlangen-Nuremberg ont développé une AI capable de créer un monde 3D à partir des images 2D. Ils ont alimenté le réseau neuronal avec une sélection d’images et un modèle 3D approximatif de la scène. Ce réseau a été créé automatiquement à l’aide d’un logiciel standard appelé COLMAP. Celui-ci permet de visualiser avec précision l’aspect de la scène depuis n’importe quel point de vue.

En fait COLMAP constitue un pipeline général de type Structure-from-Motion (SfM) et Multi-View Stereo (MVS) doté d’une interface graphique et d’une ligne de commande. Il offre un large éventail de fonctionnalités pour la reconstruction de collections d’images ordonnées et non ordonnées.

Le réseau neuronal, élaboré par Darius Rückert, se distingue par sa capacité à extraire les propriétés physiques des images fixes.

En fait, ce système utilise en entrée une estimation initiale du nuage de points et les paramètres de la caméra. Les résultats obtenus sont des images synthétisées à partir de poses arbitraires de la caméra. Le rendu du nuage de points se fait grâce à un moteur de rendu différentiable utilisant le tramage de points multirésolution à un pixel.

Quant aux gradients spatiaux, ils peuvent être approximés par le nouveau concept de géométrie fantôme. Après le rendu, la pyramide d’images neuronales passe par un réseau profond pour le calcul de l’ombrage et le remplissage des trous. Un tonificateur différentiable, basé sur la physique, convertit ensuite la sortie intermédiaire en image cible.

Rückert vise à optimiser tous les paramètres de la scène

Certains des exemples les plus fluides d’environnements générés utilisent entre 300 et 350 images capturées sous différents angles. Rückert espère améliorer le système en lui faisant simuler la façon dont la lumière rebondit sur les objets de la scène pour atteindre la caméra. De cette façon, moins d’images fixes seraient nécessaires pour un rendu 3D précis.

Bien que le système nécessite encore une saisie précise des données 3D et qu’il ne fonctionne pas encore pour les objets en mouvement, la qualité du rendu est sans précédent. Cela prouve que le photoréalisme automatisé est possible.

Grâce à cette technologie, il sera possible de générer des effets visuels dans les films et des visites virtuelles de lieux. Elle permettra d’accélérer le domaine de recherche déjà très actif du rendu de l’imagerie générée par ordinateur basé sur l’apprentissage automatique.