Un robot IA représentant ChatGPT Agent dans une boule sécurisé remplie de codes

ChatGPT Agent : l’IA qui fait le boulot à votre place (et parfois mieux que vous)

Ny Ando A. 17 juillet 2025 3 minutes de lecture IA générative

Il y a quelques heures, un étrange compte à rebours a agité les internautes. OpenAI a donné rendez-vous au monde entier ce mercredi 17 juillet à 20h (heure de Paris) pour une annonce sur ChatGPT Agent. Elle était diffusée en direct sur leur chaîne YouTube. Mais rassurez-vous, si vous l’avez raté, je vous rapporte tout ici.

ChatGPT Agent est la relève d’Operator, le petit navigateur web intégré au chatbot depuis le début de l’année 2025. Cependant, il ne se contenterait pas de répondre à vos questions, il va agir pour vous. Il va littéralement er ChatGPT en assistant personnel surdoué.

Tout comme Deep Research, cet outil est directement accessible depuis l’interface principale. Et si vous êtes du genre à aimer les raccourcis, il suffit de taper la commande « /agent » pour le faire apparaître à la demande.

ChatGPT Agent : comment ça marche ?

Pour le moment, ChatGPT Agent n’est disponible que pour les abonnés ChatGPT Plus, Pro et Team résident aux États-Unis, en Suisse ou au Royaume-Uni. Mais franchement, je crois qu’il en vaut la peine ! Savez-vous pourquoi ?

Parce qu’il est capable de naviguer sur le web, d’écrire du code, de remplir des formulaires ou encore de planifier un voyage. Il peut même comparer des produits sur des sites e-commerce, créer une présentation complète, analyser des données dans une feuille Excel.

Vous n’avez qu’à lui donner les consignes, et il gèrera. En plus, contrairement à une simple suite d’échanges textuels, l’Agent prend une instruction unique et l’exécute étape par étape, avec intelligence et méthode.

Il planifie, agit, vérifie, et surtout, demande votre accord dès qu’une action sensible est requise (comme un achat ou un envoi de données). L’objectif étant de gagner du temps sans jamais perdre le contrôle.

OpenAI insiste d’ailleurs sur les nombreuses garanties de sécurité intégrées. Le système a été testé contre les tentatives d’abus. Genre, les injections d’instructions cachées (prompt injection). Il a aussi été formé à refuser les demandes douteuses.

Il ne peut pas exécuter de commandes système, ni installer de logiciel, ni accéder à votre machine. Tout se passe dans une « sandbox », c’est-à-dire un environnement cloisonné, sans accès direct à vos données personnelles.

Ce dernier, propulsé par GPT-4o, est équipé d’un navigateur, d’un interpréteur de code et d’un accès aux fichiers. A noter que lors du direct, il a été mentionné que des évolutions futures sont éventuellement prévues. L’intégration d’API tierces, la mémoire persistante ou encore des outils de collaboration en équipe, par exemple.

Ce que montrent les premiers tests

D’après l’annonce, OpenAI a soumis ChatGPT Agent à une série d’évaluation. Résultat : il surpasse non seulement les versions précédentes. Mais aussi certains outils concurrents. Voire les humains dans certaines tâches spécialisées.

Le benchmark Humanity’s Last Exam (HLE), l’un des plus exigeants dans le domaine, a été un révélateur. Ce test simule des questions complexes couvrant des dizaines de disciplines.

L’Agent a obtenu un score de 41,6, et jusqu’à 44,4 en stratégie parallèle — un record. Cela démontre une capacité non seulement à raisonner, mais aussi à s’adapter et à affiner ses réponses en temps réel.

Résultat Benchmarck de ChatGPT Agent — Source : OpenAI Youtube

Sur le FrontierMath, une référence en mathématiques avancées, l’agent atteint 27,4 % de précision. Ce, grâce à sa capacité à exécuter du code et manipuler des équations complexes.

Sur des tâches plus appliquées, comme l’édition de feuilles de calcul (SpreadsheetBench), il atteint 45,5 %, doublant la précision du célèbre Copilot de Microsoft (20 %).

OpenAI a aussi évalué l’Agent sur des modèles financiers complexes, comme ceux qu’utilisent les analystes en banque d’investissement. Résultat : il a surpassé les outils internes et certains humains sur des tâches pointues. Du type, les LBO ou les modèles à trois états utilisés par les grandes entreprises du Fortune 500.

Côté navigation web, le score est tout aussi impressionnant. Dans le BrowseComp, l’Agent a obtenu 68,9 points, soit 17,4 points de plus que Deep Research. Impressionnant ?

Bref, si vous aussi souhaitez mettre cet agent IA à l’épreuve, mais que vous êtes en France, je vous conseille d’utiliser un VPN. Et n’oubliez de nous partager en commentaire votre expérience !