Avec Computer Use, la firme de Mountain View donne à son modèle la capacité d’utiliser Chrome comme un véritable utilisateur humain. Cliquer, remplir, faire défiler, glisser-déposer… Tout y passe.
L’ère des assistants passifs touche à sa fin. Google dévoile Gemini 2.5 Computer Use, une IA capable d’interagir directement avec le web. Gemini peut désormais naviguer, remplir un formulaire, tester une interface ou réserver un hôtel… Tout cela en manipulant Chrome comme vous le feriez avec votre souris et votre clavier.
L’IA passe du texte à l’action avec Gemini 2.5 Computer Use
Google continue de pousser les limites de son modèle Gemini. Après les versions capables de lire, écrire et analyser, voici Gemini 2.5 Computer Use. C’est une mise à jour majeure qui donne des « mains » à l’IA. L’approche de Google est de maîtriser le navigateur Chrome. Et c’est malin puisque le web est déjà l’environnement de travail le plus universel.
Ainsi, Gemini 2.5 Computer Use interagit directement avec les sites web. Non plus via des API, mais à travers leur interface utilisateur. C’est la réponse directe de Google à OpenAI (ChatGPT Agent) et Anthropic (Claude 3.5 Sonnet), qui testent déjà ce genre d’agents capables d’agir en ligne.
Our new Gemini 2.5 Computer Use model can navigate browsers just like you do. 🌐
It builds on Gemini’s visual understanding and reasoning capabilities to power agents that can click, scroll and type for you online – setting a new standard on multiple benchmarks, with faster… pic.twitter.com/Fqmov9Kkhb— Google DeepMind (@GoogleDeepMind) October 7, 2025
Contrairement à ChatGPT Agent ou Claude, Gemini 2.5 ne contrôle que le navigateur, mais pas le système d’exploitation. Google justifie ce choix par une question de sécurité et de fiabilité. Il vaut mieux un environnement restreint, mais stable qu’un accès total à votre ordi.
Par ailleurs, Google affirme que Gemini 2.5 dépasse les concurrents sur plusieurs benchmarks web et mobiles. Comme Online-Mind2Web et WebVoyager, tout en affichant une latence réduite. C’est difficile de vérifier ces chiffres, mais ils confirment une optimisation poussée pour la navigation autonome.
Comment ça marche concrètement ?
Actuellement, l’IA sait exécuter 13 actions standards. Elle peut ouvrir une page web, taper du texte, cliquer sur des boutons, faire défiler une page, glisser-déposer, soumettre un formulaire, etc. Ce panel couvre la majorité des besoins web comme les achats en ligne, les formulaires, les tests d’interfaces, les comparaisons de produits… Tout cela sans jamais toucher directement à votre système.
Gemini 2.5 Computer Use mélange donc compréhension du langage naturel et vision par ordinateur. Lorsqu’un utilisateur fait une demande ; par exemple « réserve un hôtel à Toulouse pour ce week-end », l’IA analyse la requête, ouvre Chrome et capture et observe l’écran.
Ensuite, elle décide de l’action suivante (cliquer, remplir, valider…) et vérifie le résultat avec une nouvelle capture d’écran. Ce cycle se répète en boucle jusqu’à accomplissement de la tâche.
Google teste déjà Gemini 2.5 Computer Use dans plusieurs projets. Notamment, dans AI Mode et Project Mariner, où l’IA effectue des actions autonomes dans le navigateur. Il y a aussi des démos où elle joue à 2048, parcourt Hacker News pour repérer les sujets chauds. L’IA remplit aussi des formulaires complexes.
Les vidéos officielles montrent un rythme accéléré (x3), mais les séquences restent impressionnantes. Et elle ne requiert aucune intervention humaine une fois la tâche lancée.
- Partager l'article :