Astra, Genie 2 et Veo 2 de Google DeepMind s’invitent sur le plateau de 60 Minutes sur CBS. Le reportage, diffusé le 20 avril 2025, dévoile leur avancée, présenté par le PDG de l’entreprise, Demis Hassabis.
Présenté officiellement le 4 décembre 2024, Genie 2 transforme une image en univers 3D immersifs. Les rendus sont parfaits pour simuler les jeux vidéo et la formation de robots.
Astra voit et ressent
Avant de dévoiler Genie 2, le PDG de Google DeepMind présente Astra, un assistant IA multimodal. Doté de caméras et de microphones, ce modèle perçoit le monde en temps réel.
Lors d’une démonstration à Londres avec Scott Pelley, Astra reconnaît le Coal Drops Yard, un quartier commerçant animé. Devant la peinture Automat d’Edward Hopper, il identifie l’œuvre et décrit une femme pensive et solitaire.
Intrigué, Pelley interroge Astra sur l’histoire derrière cette femme. L’IA improvise : « Par une soirée fraîche, peut-être un mardi, Eleanor savoure un café chaud, seule dans un restaurant. Perdue dans ses pensées, elle s’interroge sur ses rêves d’avenir. »
Cette capacité à tisser un récit à partir d’une image statique impressionne. Hassabis confie à Pelley : « Depuis les débuts de DeepMind, nos systèmes surprennent souvent. Astra excelle dans la compréhension du monde physique, bien plus tôt que prévu. »
En associant analyse visuelle, émotionnelle et narrative, Astra se rapproche d’une interaction quasi humaine, marquant un progrès majeur en IA.
Google Genie 2, des images aux univers 3D
Le PDG de Google DeepMind présente ensuite Genie 2. Un modèle qui transforme une image statique en un monde 3D interactif.
Le chercheur Jack Parker-Holder illustre cela avec une photo d’une cascade californienne. En quelques secondes, Genie 2 crée un environnement explorable, semblable à un jeu vidéo à la première personne.
Un avatar longe le bassin de la cascade, des gouttes d’eau jaillissent. Un paysage inédit, absent de l’image originale, se dessine.
Une autre démonstration montre un avion en papier survolant un désert occidental. De nouveaux éléments apparaissent en temps réel, comme si l‘IA imaginait chaque détail à la volée.
Ce système maintient une cohérence visuelle pendant une minute, permettant à un humain ou à un agent IA de naviguer via clavier et souris. Ces mondes virtuels riches soutiennent aussi le développement de l’intelligence artificielle générale (AGI).
Veo 2, la vidéo photoréaliste
Après la révélation de Genie 2, le reportage de 60 Minutes met en lumière Veo 2. Un modèle de Google DeepMind dédié à la génération de vidéos.
Une invite textuelle décrivant un golden retriever ailé courant dans un champ donne naissance à une vidéo d’une netteté remarquable. Les ailes du chiot battent sous la lumière du soleil, chaque détail paraissant presque réel.
Il y a deux ans, une démonstration affichait des images floues et déformées. Ces vidéos, d’une qualité proche du cinéma, pourraient révolutionner la publicité, l’éducation et les simulations visuelles.
Contrairement aux modèles précédents, Veo 2 produit des scènes fluides et détaillées, adaptées au divertissement ou à des usages professionnels. En exploitant des données comme celles de Google Maps ou Street View, DeepMind pourrait enrichir ses modèles pour des applications variées.
- Partager l'article :