Les agents IA sont le prochain tournant majeur dans le domaine de l’IA, et dans la quête vers la création d’une IA générale comparable au cerveau humain… découvrez tout ce qu’il faut savoir sur cette technologie qui pourrait bien marquer l’année 2025 !
Lors de son lancement en 2022, ChatGPT a suscité un vif engouement et initié le début d’une nouvelle ère pour les assistants IA.
Toutefois, deux ans plus tard, les regards se tournent vers une nouvelle technologie tout aussi excitante : les agents IA.
Cette innovation a marqué les esprits lors de la conférence Google I/O de mai 2024, avec la révélation du Projet Astra : un agent IA permettant aux utilisateurs d’interagir via l’audio et la vidéo.
En outre, le dernier modèle en date d’OpenAI, GPT-4o, a lui aussi été présenté comme un agent IA. Même si certaines fonctionnalités n’ont pas encore été dévoilées, il sera là encore possible d’interagir avec ce chatbot via la voix et d’autres modalités.
Désormais, les entreprises de la tech investissent massivement dans la création d’agents IA et leurs efforts pourraient découler sur l’émergence d’intelligences artificielles réellement utiles telles que nous en rêvons depuis de nombreuses
Selon de nombreux experts, il s’agit du prochain cap dans le domaine de l’IA. C’est notamment ce qu’affirme Sam Altman, le CEO d’OpenAI en personne.
Alors, qu’est-ce que c’est, quelles sont les possibilités offertes, et quelles différences par rapport aux outils disponibles à l’heure actuelle ? C’est ce que nous vous proposons de découvrir dans la suite de ce dossier !
Qu’est-ce qu’un agent IA ?
Les agents IA viennent tout juste de voir le jour, et il n’existe pas encore de définition précise pour cette technologie.
Pour faire simple, il s’agit de modèles IA et d’algorithmes capables de prendre des décisions en toute autonomie dans un monde dynamique.
C’est du moins la façon dont les décrit Jim Fan, scientifique en chef chez Nvidia et responsable du développement d’agents IA dans l’entreprise américaine.
Toutefois, certains agents peuvent aussi évoluer dans le monde réel. C’est le cas des robots, drones automatisés, ou des voitures autonomes.
D’autres sont purement logiciels, exécutés sur les ordinateurs pour accomplir des tâches. L’aspect, les composants et l’interface de chaque agent IA varie en fonction de la tâche pour laquelle il est conçu.
De manière générale, un agent IA est un système capable d’exécuter une large gamme de tâches, à la manière d’un véritable assistant humain.
Selon une étude des chercheurs de Princeton, les agents IA ont trois caractéristiques principales. Ils doivent pouvoir poursuivre des objectifs dans des environnements complexes sans avoir reçu d’instructions.
Ils doivent aussi pouvoir recevoir des instructions en langage naturel et agir de façon autonome sans supervision, et doivent être capables d’utiliser des outils comme la recherche web ou la programmation.
Ces entités peuvent agir de façon autonome au sein d’un environnement, prendre des informations à partir de ce qui les entoure, et se baser sur ces données pour prendre des décisions.
Les systèmes les plus avancés peuvent même apprendre et mettre à jour leur comportement au fil du temps, en essayant constamment de nouvelles solutions à un problème jusqu’à atteindre leur objectif !
Quels sont les composants d’un agent IA ?
Différents composants constituent le corps ou le logiciel d’un agent IA. Les capteurs lui permettent de percevoir son environnement pour rassembler des informations, telles que des images, sons ou des fréquences radio.
Ces capteurs peuvent être des caméras, microphones, ou encore des antennes. Dans le cas des agents logiciels, il peut s’agir d’une fonction de recherche web ou d’un outil permettant de lire les fichiers PDF.
Les actionneurs quant à eux aident l’agent à agir dans le monde. Il peut s’agir de roues, bras robotiques, ou d’un outil pour créer des fichiers sur un ordinateur.
Les processeurs, les systèmes de contrôle et autres mécanismes de prise de décision composent le « cerveau » d’un agent. Ils partagent des fonctions similaires, mais tous ne sont pas forcément présents dans un système d’agent IA.
Leur rôle est de traiter l’information provenant des capteurs, de choisir la meilleure action, et d’envoyer des commandes aux actionneurs.
Les systèmes de base de connaissance et d’apprentissage quant à eux stockent les données aidant l’agent IA à compléter des tâches. Il peut s’agir par exemple d’une base de données de faits ou de perceptions passées, des difficultés rencontrées, et des solutions trouvées.
Gardez en tête que la forme d’un agent IA dépend fortement des tâches qu’il exécute. Certains auront donc tous ces composants, d’autres seulement une partie.
À quoi ça sert ?
Dans le futur, ce type d’intelligence artificielle pourrait vous aider à réserver vos vacances, tout en se rappelant vos préférences en termes d’hôtels.
Par exemple, si vous aimez le luxe, il vous proposera uniquement des hôtels ayant plus de quatre étoiles. Vous pourrez ensuite choisir votre préféré, et l’agent se chargera de tout réserver à votre place.
Il vous conseillera aussi des vols adaptés à votre calendrier, et planifiera l’itinéraire de voyage en fonction de vos préférences. De plus, l’agent pourra même faire une liste de bagages à emmener en fonction de votre programme et des prévisions météo.
Si vous avez des amis qui vivent sur votre lieu de vacances, l’IA pourra même leur envoyer votre itinéraire et les inviter !
Au travail, un agent pourra analyser votre liste de choses à faire et se baser dessus pour exécuter des tâches comme l’envoi d’invitations, mémos ou d’emails.
Des IA multimodales capables de traiter langage, audio et vidéo
Un autre point fort des agents est qu’ils sont multimodaux. Ils peuvent donc traiter le langage, l’audio et la vidéo.
Par exemple, dans la démo de Google Astra, on découvre que les utilisateurs peuvent pointer la caméra de leurs smartphones sur des objets et poser des questions dessus à l’agent. Ce dernier peut répondre à n’importe quel input sous forme de texte, d’audio ou de vidéo.
Ces agents pourraient aussi rendre certains processus plus fluides pour les entreprises et les organisations publiques, selon le directeur de l’University College London Centre for Artificial Intelligence, David Barber.
Par exemple, un agent IA pourrait être capable de fonctionner comme chatbot de service client beaucoup plus avancé que ceux disponibles aujourd’hui.
En effet, la génération actuelle d’assistants basés sur des modèles de langage peut uniquement générer le prochain mot probable dans une phrase. Ils se contentent de générer du texte en se basant sur les probabilités.
Or, un agent IA aura la capacité d’agir de façon autonome sur des commandes en langage naturel et de traiter les tâches de service client sans aucune supervision.
Par exemple, il sera capable d’analyser les emails de plaintes et de réclamations des clients, puis de vérifier le numéro de référence, d’accéder aux bases de données des CRM, et de vérifier si la plainte est légitime. Il pourra ensuite la traiter selon la politique de l’entreprise.
Les deux grandes catégories d’agents IA
On distingue deux catégories principales d’agents IA, selon Jim Fan : les agents logiciels, et les agents incarnés.
Les agents logiciels tournent sur les ordinateurs ou smartphones, et utilisent des applications. Ils sont très utiles pour le travail de bureau ou pour envoyer des emails, ou pour une chaîne d’événements.
De leur côté, les agents incarnés naviguent dans un monde en 3D. Il peut s’agir de personnages de jeux vidéo, rendant les jeux plus immersifs en laissant les gens jouer avec des PNJ contrôlés par l’IA.
D’ailleurs, Jim Fan faisait partie d’une équipe qui a créé l’agent IA dénommé MineDojo dans Minecraft.
Entraîné sur de nombreuses données collectées sur internet, cet agent a pu apprendre de nouvelles compétences lui permettant d’explorer librement ce monde virtuel en 3D et compléter des tâches diverses.
Il a notamment appris à encercler des lamas avec des barrières, ou à ramasser de la lave avec un seau. Les jeux vidéo sont une bonne façon de préparer les agents au monde réel, car ils requièrent une compréhension de la physique et du sens commun.
Toutefois, le terme d’agent incarné peut aussi désigner des robots dotés d’une IA avancée pour leur permettre d’accomplir des tâches ménagères : plier le linge, préparer à manger…
C’est ce que propose par exemple Unitree avec son robot G1 commercialisé pour 13 000 dollars, Figure et son 02 ou Tesla et son Optimus.
Les différents types d’agents IA
Au-delà de ces deux catégories principales, on peut regrouper les agents IA dans plusieurs catégories. En voici un aperçu.
Les agents à réflexe simple cherchent un stimuli dans un ou plusieurs capteurs. Lorsque ce signal est détecté, ils l’interprètent, prennent une décision et produisent une action ou un résultat. On peut donner pour exemple les thermostats numériques ou les aspirateurs intelligents.
De leur côté, les agents à réflexe basé sur modèle gardent un état interne actif, rassemblent des informations sur la façon dont le monde fonctionne et comment les actions l’affectent.
Ceci aide à améliorer la prise de décision au fil du temps. On les retrouve par exemple dans les voitures autonomes, mais aussi dans les systèmes de prévision des stocks utilisés dans les entrepôts.
Les agents basés sur but, quant à eux, créent une stratégie pour résoudre un problème spécifique.
Ils génèrent une liste de tâches, les étapes pour les accomplir, et comprennent comment les actions les rapprochent de l’objectif. C’est le type d’IA qui triomphe des plus grands maîtres humains de jeu d’échecs.
Les agents basés sur l’utilité réfléchissent aux résultats des décisions prises dans des circonstances présentant de nombreux plans d’action viables.
Ils examinent chaque possibilité et la notent selon sa fonction d’utilité : la meilleure option est-elle la moins chère, la plus rapide, la plus efficace ? C’est une approche très utile pour optimiser le trafic dans la ville ou vous recommander du contenu sur un service de streaming.
Enfin, les agents apprenants apprennent de leur environnement et de leur comportement. Ils utilisent un générateur de problèmes pour créer des tests et explorer le monde.
Un élément de performances leur permet aussi de prendre des décisions et effectuer des actions en se basant sur ce qu’ils ont appris. Ce sont ces agents qui empêchent notamment les spams d’envahir votre boîte email.
Il est également possible de combiner plusieurs types d’agents dans un système multi-agent. Par exemple, un agent peut servir de système de contrôle, générer des tâches, et les déléguer à d’autres agents IA spécialisés.
À mesure qu’ils complètent ces tâches, le résultat est stocké et analysé et le système continue d’itérer jusqu’à trouver une solution.
Comment ça marche ?
Les agents IA utilisent leurs capteurs pour collecter des données, leurs systèmes de contrôle pour penser à des hypothèses et des solutions, leurs actionneurs pour effectuer des actions dans le monde réel, et un système d’apprentissage pour suivre leurs progrès et apprendre de leurs erreurs.
Dans un premier temps, après avoir reçu un input, l’agent IA commence par une initialisation de but. Il transmet le prompt à son LLM, par exemple GPT, et retourne le premier résultat de son monologue interne pour indiquer qu’il comprend ce qu’il doit faire.
Il crée ensuite une liste de tâches basée sur l’objectif, et détermine dans quel ordre il doit les effectuer. Une fois son plan élaboré, il commence à chercher des informations.
Capable d’utiliser un ordinateur comme vous le faites, l’agent peut chercher des informations sur internet. Les plus avancés peuvent même déléguer leurs tâches à d’autres agents ou modèles IA, par exemple pour générer des images ou prendre des décisions.
Toutes les données sont stockées et gérées par l’agent dans son système de base de connaissance ou d’apprentissage, afin qu’il puisse vous les retransmettre et améliorer progressivement sa stratégie.
À mesure que les tâches sont cochées dans sa liste, l’agent évalue à quel point il est encore loin de son but en rassemblant du feedback en provenance de sources externes et de son monologue interne.
Jusqu’à ce que l’objectif soit atteint, l’agent continue d’itérer, de créer davantage de tâches, de rassembler des informations et du feedback, et de progresser sans faire de pause !
Une nouvelle génération d’agents IA grâce aux LLM
En réalité, le terme « agents IA » est employé depuis de nombreuses années. Toutefois, selon le professeur Chirag Shah de l’Université de Washington, sa définition varie.
De même, Jim Fan estime qu’il y a eu deux vagues d’agents. La vague actuelle est liée à l’essor des modèles de langage et à l’émergence de systèmes comme ChatGPT.
La précédente a eu lieu en 2016, quand Google DeepMind a dévoilé AlphaGo : un système IA capable de jouer au jeu de Go et de battre les plus grands champions.
Cette IA était capable de prendre des décisions et de planifier des stratégies, grâce à la technique de l’apprentissage par renforcement qui consiste à récompenser les algorithmes pour leurs bons comportements.
Néanmoins, le vice-président de la recherche chez Google DeepMind, Oriol Vinyals, explique que « ces agents n’étaient pas généraux ». Ils ont été créés pour des tâches très spécifiques, en l’occurrence jouer au Go.
Or, la nouvelle génération d’IA basées sur les Larges Modèles de Langage rend les agents plus universels. Désormais, ils peuvent apprendre du monde avec lequel les humains interagissent.
D’après Vinyals, « on ressent davantage que le modèle interagit avec le monde, et donc de meilleures réponses ou une meilleure assistance ».
Quelles sont les limites ?
Malgré le formidable potentiel des agents IA, de nombreuses questions requièrent encore une réponse.
Aux yeux de Kanjun Qiu, CEO et fondateur de la startup Imbue, qui développe des agents capables de coder et de raisonner, cette technologie en est à peu près au même stade que les voitures autonomes il y a environ dix ans.
Ils sont capables d’accomplir des tâches, mais ne sont pas encore réellement fiables et autonomes. Par exemple, un agent de codage peut générer du code, mais peut parfois se tromper.
De plus, il ne sait pas comment tester le code qu’il crée. Par conséquent, les humains ont encore besoin d’être impliqués activement dans le processus.
Les systèmes IA ne peuvent pas raisonner pleinement, ce qui est pourtant indispensable dans le monde humain.
Face à ce constat, Jim Fan estime que « nous sommes loin d’avoir un agent capable d’automatiser toutes les corvées pour nous ».
Il rappelle que « les systèmes actuels hallucinent et ne suivent pas toujours les instructions, et cela devient agaçant ».
Un autre problème est qu’après un certain temps, les agents IA oublient ce sur quoi ils travaillent. Leur fenêtre de contexte, à savoir le volume de données qu’ils peuvent prendre en compte, est limitée.
Par exemple, un développeur humain peut naviguer parmi des centaines de lignes de code sur GitHub, mais ChatGPT n’est pas capable de produire de longs contenus.
C’est d’ailleurs pour combler cette lacune que Google a augmenté la capacité de ses modèles à traiter les données. Ceci permet aux utilisateurs d’avoir de plus longues interactions durant lesquelles l’IA se remémore davantage les interactions passées.
À long terme, la firme souhaite que la fenêtre de contexte devienne illimitée. Cela signifie que l’IA pourrait prendre un volume illimité de données et se souvenir de toutes les conversations…
Les agents incarnés, tels que les robots, sont encore plus limités. Il n’y a pas suffisamment de données d’entraînement, et les chercheurs commencent tout juste à exploiter les modèles IA dans la robotique.
Compte tenu de tous ces défauts, les agents IA n’en sont encore qu’à leurs balbutiements. Il faudra patienter plusieurs années pour découvrir leur véritable potentiel !
Comment essayer les agents IA dès maintenant ?
Pour le moment, les IA auxquelles le grand public a accès ne sont que des embryons d’agents IA. C’est le cas de ChatGPT ou Anthropic Claude.
Néanmoins, Kanjun Qiu de Imbue estime que « si vous interagissez avec un logiciel que vous sentez intelligent, c’est déjà une sorte d’agent ».
Malgré cela, les meilleurs agents déjà existants sont des systèmes très étroits et réservés à des cas d’usage bien spécifiques : assistants de codage, robots de service client, logiciels d’automatisation de workflow…
Nous sommes donc encore loin d’un agent IA universel capable de réaliser des tâches complexes. En réalité, Qiu estime que les plugins ChatGPT, permettant de créer des assistants IA sur mesure, étaient une tentative de donner naissance aux agents.
Toutefois, ces systèmes ne sont pas fiables et sont incapables de raisonner. Il faudra donc patienter un peu pour que les agents IA transforment la façon dont nous interagissons avec la technologie !
Alors, que pensez-vous de cette technologie ? Pensez-vous qu’elle puisse vraiment marquer le début d’une nouvelle ère pour l’intelligence artificielle ? Partagez votre avis en commentaire !
- Partager l'article :