2026-07-01T10:16:58+02:00

GeneBench-Pro : OpenAI crée un benchmark si difficile que même GPT 5.6 Sol galère

Ny Ando A. Publié le 1 juillet 2026 Mis à jour le 1 juillet 2026 2 minutes de lecture Intelligence artificielle

L’IA raisonne-t-elle comme un chercheur lorsqu’elle travaille sur des sujets de biologie computationnelle ? Difficile à dire. Voilà pourquoi OpenAI a conçu GeneBench-Pro.

Ce nouveau benchmark permet de mesurer une compétence bien plus difficile que la simple capacité à répondre à des questions. Le jugement scientifique des modèles d’IA.

Quel genre de benchmark est-ce ?

We’re introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can navigate messy biological data, choose the right analysis path, and make judgment calls that real computational research depends on.https://t.co/AsilnnSxnE
— OpenAI (@OpenAI) June 30, 2026

GeneBench-Pro réunit 129 problèmes portant sur la génomique, la biologie quantitative et la médecine translationnelle. Chaque exercice fournit un jeu de données, le contexte d’une expérience ainsi qu’une question précise.

L’IA ne peut pas se contenter de réciter ses connaissances. Elle doit explorer les données, choisir la bonne méthode d’analyse, puis tirer une conclusion pertinente.

Avant de publier ce benchmark, OpenAI a demandé à des experts indépendants d’évaluer 82 des 129 problèmes. Doctorants, chercheurs postdoctoraux, scientifiques de l’industrie et professeurs…

Tous ont été sollicités pour vérifier si les scénarios ressemblaient à de véritables travaux de recherche et si les réponses attendues étaient cohérentes. Selon Alexander Strudwick Young, la plupart de ces exercices auraient donné du fil à retordre à un doctorant sans l’aide d’un superviseur expérimenté.

Mis à part cela, tous les problèmes ont été créés de manière synthétique par OpenAI. L’entreprise contrôle ainsi l’ensemble des données utilisées. Ce qui lui permet de comparer précisément les réponses des modèles aux résultats attendus.

Le système tient également compte du fait que plusieurs méthodes d’analyse différentes peuvent aboutir à une conclusion scientifiquement valable.

Comment les modèles actuels s’en sortent sur GeneBench-Pro ?

GPT-5.6 Sol s’en sort nettement mieux que ses prédécesseurs. Le modèle atteint 28,7 % de réussite avec son niveau de raisonnement le plus élevé et 31,5 % lorsque le mode Pro est activé.

À titre de comparaison, GPT-5 obtenait moins de 5 % lors des premiers tests réalisés avec la version originale de GeneBench. En revanche, lorsque GPT-5.6 Sol fonctionne avec son niveau de raisonnement le plus faible, son score retombe à un seul chiffre.

Les autres modèles, quant à eux, restent derrière. Opus 4.8 atteint 16 %, Gemini 3.5 Flash 8,1 %, Gemini 3.1 Pro 3,1 %, GLM 5.2 4,6 %, DeepSeek V4 Pro 2,4 % et Grok 4.3 seulement 1,5 %.

Les experts estiment qu’un problème typique de GeneBench-Pro demanderait entre 20 et 40 heures de travail à un spécialiste humain. Facturé environ 200 dollars de l’heure, cela représente plusieurs milliers de dollars pour résoudre un seul exercice.

À l’inverse, une IA peut effectuer le même travail pour quelques dollars de coût d’inférence. Quoi qu’il en soit, OpenAI ouvre une partie du projet. Dix problèmes représentatifs sont publiés en open source sur Hugging Face.

Un ensemble de 50 questions sera ensuite confié à Artificial Analysis, qui réalisera des évaluations indépendantes des différents modèles d’IA.