GeneBench-Pro benchmark

GeneBench-Pro : OpenAI crée un benchmark si difficile que même GPT 5.6 Sol galère 

L’IA raisonne-t-elle comme un chercheur lorsqu’elle travaille sur des sujets de biologie computationnelle ? Difficile à dire. Voilà pourquoi OpenAI a conçu GeneBench-Pro.

Ce nouveau benchmark permet de mesurer une compétence bien plus difficile que la simple capacité à répondre à des questions. Le jugement scientifique des modèles d’IA. 

Quel genre de benchmark est-ce ?

GeneBench-Pro réunit 129 problèmes portant sur la génomique, la biologie quantitative et la médecine translationnelle. Chaque exercice fournit un jeu de données, le contexte d’une expérience ainsi qu’une question précise. 

L’IA ne peut pas se contenter de réciter ses connaissances. Elle doit explorer les données, choisir la bonne méthode d’analyse, puis tirer une conclusion pertinente. 

Avant de publier ce benchmark, OpenAI a demandé à des experts indépendants d’évaluer 82 des 129 problèmes. Doctorants, chercheurs postdoctoraux, scientifiques de l’industrie et professeurs…

Tous ont été sollicités pour vérifier si les scénarios ressemblaient à de véritables travaux de recherche et si les réponses attendues étaient cohérentes. Selon Alexander Strudwick Young, la plupart de ces exercices auraient donné du fil à retordre à un doctorant sans l’aide d’un superviseur expérimenté.

Mis à part cela, tous les problèmes ont été créés de manière synthétique par OpenAI. L’entreprise contrôle ainsi l’ensemble des données utilisées. Ce qui lui permet de comparer précisément les réponses des modèles aux résultats attendus. 

Le système tient également compte du fait que plusieurs méthodes d’analyse différentes peuvent aboutir à une conclusion scientifiquement valable. 

Comment les modèles actuels s’en sortent sur GeneBench-Pro ?

GPT-5.6 Sol s’en sort nettement mieux que ses prédécesseurs. Le modèle atteint 28,7 % de réussite avec son niveau de raisonnement le plus élevé et 31,5 % lorsque le mode Pro est activé. 

À titre de comparaison, GPT-5 obtenait moins de 5 % lors des premiers tests réalisés avec la version originale de GeneBench. En revanche, lorsque GPT-5.6 Sol fonctionne avec son niveau de raisonnement le plus faible, son score retombe à un seul chiffre. 

Les autres modèles, quant à eux, restent derrière. Opus 4.8 atteint 16 %, Gemini 3.5 Flash 8,1 %, Gemini 3.1 Pro 3,1 %, GLM 5.2 4,6 %, DeepSeek V4 Pro 2,4 % et Grok 4.3 seulement 1,5 %. 

Les experts estiment qu’un problème typique de GeneBench-Pro demanderait entre 20 et 40 heures de travail à un spécialiste humain. Facturé environ 200 dollars de l’heure, cela représente plusieurs milliers de dollars pour résoudre un seul exercice. 

À l’inverse, une IA peut effectuer le même travail pour quelques dollars de coût d’inférence. Quoi qu’il en soit, OpenAI ouvre une partie du projet. Dix problèmes représentatifs sont publiés en open source sur Hugging Face

Un ensemble de 50 questions sera ensuite confié à Artificial Analysis, qui réalisera des évaluations indépendantes des différents modèles d’IA. 

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥