La nouvelle IA OpenAI o1 choque les scientifiques ! Voici pourquoi

Mariano R. 7 octobre 2024 3 minutes de lecture Intelligence artificielle

La nouvelle IA d’OpenAI, baptisée o1, fait sensation dans le milieu scientifique. Plus rapide, plus précis, non seulement elle excelle dans la résolution de problèmes complexes, mais elle dépasse même des doctorants dans des tests très durs. Les chercheurs sont « en admiration » devant les capacités d’o1. Alors, qu’est-ce qui rend ce modèle si spécial ?

Le mois dernier, OpenAI a annoncé son tout nouveau modèle de langage. En un clin d’œil, o1 s’est vite imposé comme une véritable machine à résoudre des problèmes scientifiques. Qui plus est, il surpasse même les doctorants lors de tests ultra-complexes en sciences ! Ainsi, cette IA a vraiment stupéfait les chercheurs. Ils louent les capacités du modèle à générer des idées originales et à accélérer des processus. Cette IA ne se contente pas de répondre à des questions, elle propose même des solutions inédites, accélère les projets de recherche, et devient un outil de plus en plus indispensable. Bref, c’est le futur des chatbots scientifiques, et il est déjà là !

Le chatbot d‘OpenAI surpasse les doctorants et casse les codes

‘In awe’: scientists impressed by latest ChatGPT model o1 @Nature

Researchers testing OpenAI o1 highlight its advanced reasoning, solving harder problems in science, math, and coding. It outscored PhDs in physics and surpassed previous models in scientific benchmarks. It… pic.twitter.com/TzTKPgnOhm
— James Pethokoukis ⏩️⤴️ (@JimPethokoukis) October 2, 2024

Andrew White, chimiste chez FutureHouse à San Francisco, a remarqué que la progression des chatbots dans les sciences stagnait depuis la sortie de GPT-4. Par conséquent, cette situation a surpris et déçu de nombreux observateurs. Mais voilà, OpenAI o1 a changé la donne ! White souligne donc que ce modèle a dépassé les chercheurs de niveau doctorat dans un test très difficile. Il s’agit du Graduate-Level Google-Proof Q&A Benchmark (GPQA). Le modèle o1 a réussi à battre des experts sur la fameuse série de questions « diamant ». C’est un véritable exploit, puisqu’il s’agit d’un vrai casse-tête, même pour les meilleurs esprits académiques.

Les chercheurs d’OpenAI ont donc présenté des résultats hallucinants avec o1. Après ce test GPQA « diamant » o1 a décroché un score global de 78 %, avec un incroyable 93 % en physique. Comparé aux autres chatbots, c’est « considérablement plus élevé que la meilleure performance rapportée suivante », dit David Rein, expert en évaluation des IA.

Rein, qui a participé à la création du GPQA, estime que ces résultats « représentent une amélioration significative et fondamentale des capacités de raisonnement de base du modèle ». En plus, durant l’examen de qualification pour l’Olympiade internationale de mathématiques, o1 a pulvérisé son grand frère GPT-4o. Ce dernier n’avait réussi que 13 % des problèmes, tandis qu’o1 a résolu 83 % des exercices.

Le verdict des scientifiques est clair, o1 est plus qu’impressionnant

Mario Krenn, expert en physique quantique et responsable au Max Planck Institute, en Allemagne, est très impressionné par o1. D’après lui, ce modèle dépasse largement son prédécesseur, GPT-4o. « Dans mon domaine de la physique quantique, il donne des réponses beaucoup plus détaillées et cohérentes » exprime-t-il. Krenn faisait aussi partie de l’équipe rouge, un groupe de scientifiques qui a essayé o1 preview pour traquer d’éventuels problèmes de sécurité.

D’ailleurs, Krenn l’a même intégré à un outil qu’il a co-développé, nommé SciMuse 2. Celui-ci analyse la littérature scientifique, repère les lacunes et propose aussi des pistes de recherche innovantes. « Cela crée des idées beaucoup plus intéressantes que GPT-4 ou GTP-4o », affirme-t-il.

Kyle Kabasares, un scientifique des données au Bay Area Environmental Research Institute, partage également cet enthousiasme. Il a utilisé o1 pour recréer une partie de son codage de doctorat sur la masse des trous noirs. Et là où il a mis des mois, o1 n’a eu besoin que d’une heure pour accomplir la même tâche.

Du côté de la médecine, Catherine Brownstein, généticienne au Boston Children’s Hospital, teste aussi o1 preview pour lier les caractéristiques des patients à des gènes associés à des maladies rares. Elle déclare alors que cette nouvelle IA d’OpenAI « est plus précise et offre des options que je ne pensais pas possibles avec un chatbot ».

Et vous, êtes-vous aussi impressionné par o1 ? Que ce soit en physique, médecine, ou codage, ce nouveau modèle de langage d’OpenAI semble tout faire. Selon vous, dans quel domaine cette IA pourrait-elle encore faire des merveilles ? Dites-le-nous en commentaire !