OpenAI lance o1, la 1ère IA qui réfléchit avant de parler : pourquoi ça change tout ?

Bastien L. 13 septembre 2024 6 minutes de lecture IA générative, Intelligence artificielle

OpenAI vient de lancer o1 : la première intelligence artificielle dotée d’une forme de raisonnement ! Découvrez tout ce qu’il faut savoir sur ce nouveau modèle révolutionnaire, son fascinant fonctionnement, et pourquoi il s’agit d’une avancée majeure vers l’émergence d’une « IA générale » surpassant le cerveau humain…

Depuis la fin 2023, une rumeur s’est propagée sur le web comme une traînée de poudre : OpenAI préparait une IA au nom de code « Projet Q* », capable de raisonner plutôt que de se contenter de prédire des mots à l’instar de GPT.

Près d’un an après les premières fuites d’informations sur ce mystérieux modèle, la firme américaine vient enfin de mettre fin au suspens !

o1 : l’IA qui prend le temps de raisonner sur des questions complexes

We're releasing a preview of OpenAI o1—a new series of AI models designed to spend more time thinking before they respond.

These models can reason through complex tasks and solve harder problems than previous models in science, coding, and math. https://t.co/peKzzKX1bu
— OpenAI (@OpenAI) September 12, 2024

Ce 12 septembre 2024, OpenAI a lancé o1. Il s’agit du premier d’une série de modèles prévus par l’entreprise, entraînés pour répondre à des questions complexes plus rapidement qu’un humain.

Le géant de l’IA a d’ores et déjà confirmé qu’il s’agit bel et bien du modèle portant le nom de code Strawberry, alias Q*, dont l’existence a été dévoilée par des fuites d’informations.

Il se révèle beaucoup plus habile que GPT-4o et toutes les autres IA existantes pour écrire du code ou résoudre des problèmes en plusieurs étapes.

Un raisonnement par « chaîne de pensée », comme les humains

Afin de traiter les requêtes, o1 utilise une « chaîne de pensée » : un processus inspiré par la façon dont les humains traitent les problèmes, étape par étape.

Quel intérêt ? Selon OpenAI, ceci lui confère davantage de précision. Le modèle a moins d’hallucinations que GPT, même si ce problème persiste malgré tout…

Là où o1 se distingue véritablement de GPT-4o, c’est par sa capacité à aborder des problèmes complexes comme le codage et les mathématiques.

En plus de performances nettement accrues dans ces domaines, o1 est capable d’expliquer son raisonnement.

Selon le chercheur en chef d’OpenAI, Bob McGrew, « ce modèle est définitivement meilleur que moi pour résoudre le test de maths AP alors que j’ai étudié les maths à l’université ».

Testé sur un examen de qualification à l’Olympiade Internationale de Mathématiques, o1 a obtenu un score de 83%. En comparaison, GPT-4o n’a résolu que 13% des problèmes !

Lors du concours de programmation en ligne Codeforces, o1 s’est hissé dans le 89ème percentile des meilleurs participants.

Selon OpenAI, la prochaine version du modèle égalera même les performances des étudiants doctorants sur des tâches de benchmarks difficiles en physique, chimie et biologie…

If OpenAI's o1 can pass OpenAI's research engineer hiring interview for coding — 90% to 100% rate…

……then why would they continue to hire actual human engineers for this position?

Every company is about to ask this question. pic.twitter.com/NIIn80AW6f
— Benjamin De Kraker (@BenjaminDEKR) September 12, 2024

Comment l’interface crée une illusion d’humanité ?

Lors d’une démo, les chercheurs d’OpenAI ont demandé à o1 de résoudre l’énigme suivante : « une princesse est aussi vieille que le prince le sera quand la princesse est deux fois plus vieille que le prince l’était quand l’âge de la princesse était la moitié de la somme de leur âge actuel. Quel est l’âge du prince et de la princesse ? Fournis toutes les solutions à cette question ».

Après environ 30 secondes de réflexion, le modèle a fourni la bonne réponse. De plus, son interface est conçue pour montrer les étapes de raisonnement à mesure que le modèle pense.

Le plus surprenant est de constater à quel point la façon dont o1 pense ressemble à celle de l’humain. Il entrecoupe par exemple ses réflexions de phrases comme « j’y réfléchis » ou « OK, laisse-moi voir ».

o1 successfully writes a very difficult poem that no previous model got even close to writing

I was very shocked by this. The planning and reflection that succeeding at this task takes is insane. Inference-time compute is very cool pic.twitter.com/9r9fAMTYdB
— Mehran Jalali (@mehran__jalali) September 12, 2024

Ceci crée l’illusion d’un véritable cheminement de pensée. Pour OpenAI, il s’agit principalement d’une façon de montrer que le modèle passe plus de temps à traiter les problèmes et s’y engage plus en profondeur.

De même, le modèle a un temps limité pour traiter les requêtes, et dira donc parfois « oh, je suis à court de temps, laisse-moi trouver une réponse rapidement ».

Au début de sa chaîne de pensée, il peut aussi sembler hésiter entre plusieurs pistes de réflexion et tenir des propos comme « je pourrais faire ceci ou cela, que devrais-je faire ? ». Tous ces éléments contribuent à créer une illusion d’humanité !

Un processus d’entraînement totalement différent de GPT

Selon Jerry Tworek, le directeur de la recherche d’OpenAI, le processus d’entraînement d’o1 est radicalement différent de celui des précédents modèles.

Les différents modèles GPT avaient appris à imiter des patterns, des schémas identifiés au sein de leurs données d’entraînement.

Or, o1 a été entraînée en utilisant un algorithme d’optimisation totalement nouveau et un nouveau jeu de données conçu sur mesure.

Elle a appris à résoudre les problèmes seule à l’aide d’une technique appelée apprentissage par renforcement ou « Reinforcement Learning ».

Cette méthode consiste à enseigner au système par le biais de récompenses et de pénalités. Pour tout savoir sur le Reinforcement Learning, vous pouvez consulter notre dossier en suivant ce lien.

OpenAI Strawberry (o1) is out! We are finally seeing the paradigm of inference-time scaling popularized and deployed in production. As Sutton said in the Bitter Lesson, there're only 2 techniques that scale indefinitely with compute: learning & search. It's time to shift focus to… pic.twitter.com/jTViQucwxr
— Jim Fan (@DrJimFan) September 12, 2024

Pas toujours meilleur que GPT-4o !

Malgré ses points forts et sa supériorité dans plusieurs domaines, o1 ne surpasse pas forcément GPT-4o pour tous les cas d’usage.

Il est plus cher et plus lent à utiliser, et ne possède pas autant de connaissances factuelles sur le monde que GPT-4o.

De plus, cette IA n’a pas la capacité de parcourir le web, ni de traiter des fichiers ou des images. Malgré cela, OpenAI est convaincue qu’elle représente un nouveau cap dans l’évolution de l’IA. Elle a été nommée o1 afin d’indiquer que « le compteur est réinitialisé à 0 »…

Une étape est franchie dans la course à l’AGI

Après les quatre générations de GPT, o1 représente un nouveau cap vers l’objectif ultime d’OpenAI : la création d’une intelligence artificielle comparable à l’intelligence humaine, aussi appelée AGI.

Jusqu’à présent, les LLM (larges modèles de langage) se contentaient de prédire des séquences de mots pour fournir une réponse basée sur les schémas appris à partir de vastes jeux de données.

Ils sont loin d’une véritable intelligence. Par exemple, ChatGPT se trompe souvent en affirmant que le mot « Strawberry » ne contient que deux R, car il ne le décompose pas correctement.

C’est une erreur que ne commet pas o1. Ce progrès peut sembler insignifiant, mais le raisonnement est une capacité qui va permettre aux LLM d’avancer vers la prochaine étape : celle de systèmes autonomes, aussi appelés agents IA, capables de prendre des décisions et d’agir à votre place.

Aux yeux des chercheurs, si une IA est capable de raisonner et d’aller au-delà de la reconnaissance de patterns, elle pourrait être capable de faire de véritables découvertes dans des domaines comme la médecine ou l’ingénierie et se rapprocher de l’intelligence humaine.

Voilà pourquoi ils ont passé de nombreux mois à travailler sur le raisonnement, qu’ils considèrent comme une avancée essentielle.

Selon McGrew, « il s’agit fondamentalement d’une nouvelle modalité pour les modèles afin de leur permettre de résoudre les problèmes vraiment difficiles nécessaires pour progresser vers un niveau humain d’intelligence »…

Comment tester OpenAI o1 ? Combien ça coûte ?

here is o1, a series of our most capable and aligned models yet:https://t.co/yzZGNN8HvD

o1 is still flawed, still limited, and it still seems more impressive on first use than it does after you spend more time with it. pic.twitter.com/Qs1HoSDOz1
— Sam Altman (@sama) September 12, 2024

Pour le moment, OpenAI souligne que le lancement de o1 n’est qu’une « preview ». Il s’agit en effet d’un tout nouveau type d’IA, et on peut s’attendre à ce qu’il présente des défauts et commette des erreurs.

Toutefois, les utilisateurs de ChatGPT Plus et ChatGPT Team peuvent accéder à o1-preview et sa version légère o1-mini dès aujourd’hui. Il vous suffit donc de souscrire à l‘abonnement pour utiliser cette nouvelle IA.

Les utilisateurs de ChatGPT Enterprise et Edu pourront quant à eux y accéder à partir du début de la semaine prochaine. À terme, OpenAI prévoit de permettre à tous les utilisateurs gratuits de ChatGPT d’utiliser o1-mini, mais n’a pas encore fixé de date.

En revanche, l’accès développeur à o1 se révèle très onéreux. Via l’API, comptez 15 dollars par million de tokens d’input, et 60 dollars par million de tokens d’ouput.

À titre de comparaison, GPT-4o coûte 5 dollars par million de tokens d’input et 15 dollars par million de tokens d’output. C’est le prix à payer pour exploiter l’IA la plus avancée du marché !

Alors, qu’en pensez-vous ? Êtes-vous impressionné par cette nouvelle IA ? Pensez-vous qu’il s’agisse d’une avancée majeure vers la création d’une AGI ? Comptez-vous utiliser o1 ? Partagez votre avis en commentaire !