La tant attendue Sora 2 d’OpenAI intégrerait un générateur audio natif ainsi que ChatGPT lui-même. En outre, OpenAI travaillerait sur le réalisme physique, la cohérence des personnages et ajouterait une bonne dose de création intuitive.
Malgré un lancement pompeux, la première version de Sora a vite été mise dans l’ombre de ses concurrents. Ses clips de courte durée, ses mouvements incohérents et l’absence d’audio intégré peinent à rivaliser avec Veo 3 de Google ou Kling 2.1. Tout comme pour l’arrivée de GPT-5 et ses capacités multimodales, Sora 2 s’annonce comme un véritable bond en avant en matière de vidéo IA. Croisons les doigts pour que celui-ci ne déçoive pas.
Vivement un générateur audio intégré
La première version de Sora permet la création de vidéos de 20 secondes. Cependant, les mouvements restaient souvent saccadés, les interactions physiques manquaient de réalisme et aucun son n’était intégré nativement.
Ainsi, Sora 2 doit corriger les lacunes de son prédécesseur pour retrouver sa place parmi les leaders de la vidéo IA.
En effet, Veo 3, Kling et d’autres modèles concurrents ont rapidement pris l’avantage. Ces derniers proposent des simulations physiques plus crédibles, parfois même des dialogues synchronisés et des ambiances sonores complètes.
Avec cette seconde version, OpenAI entend permettre la génération simultanée de dialogues, effets sonores et ambiances directement à partir de la scène. Il ne s’agit pas d’ajouter le son après coup, mais d’une intégration multimodale vidéo et audio se répondent naturellement.
Le réalisme visuel et la fluidité des mouvements restent également prioritaires. Les vidéos Sora 2 devraient simuler la physique avec précision pour rendre chaque interaction crédible et immersive.
Intégration de ChatGPT dans Sora 2
La cohérence des personnages et des scènes reste un défi majeur. Dans la première version, une même description pouvait produire des personnages différents selon les clips.
Sora 2 devra garantir la continuité stylistique et visuelle des personnages, objets et décors sur plusieurs scènes. En prime, l’intégration d’images de référence et d’éléments personnalisés fera partie des outils pour assurer cette stabilité narrative.
Enfin, si GPT-5 n’intègre pas directement Sora 2, c’est ChatGPT qui prendra le relais. Sora 2 s’appuiera sur cette intégration pour simplifier la création.Les interactions conversationnelles permettent de diriger la génération vidéo sans compétences techniques. Tandis que les ajustements en temps réel garantissent une cohérence et un réalisme constants.
- Partager l'article :
