Le nouveau modèle IA d’OpenAI, o3, a obtenu un score similaire à celui d’un humain moyen sur le test ARC-AGI visant à mesurer l’intelligence générale. Il pourrait donc s’agir de la toute première AGI, capable de surpasser l’humanité et de transformer le monde que nous connaissons. À moins que…
Nous y sommes. À la veille de 2025, un modèle d’intelligence artificielle vient d’atteindre des résultats comparables à ceux d’un humain sur un test conçu pour mesurer « l’intelligence générale ».
Le 20 décembre 2024, le système OpenAI o3 a obtenu un score de 85% sur le benchmark ARK-AGI. En comparaison, les meilleures IA précédentes ne dépassaient pas 55%. Le nouveau record établi par o3 est comparable au score d’un humain moyen…
Pour rappel, créer la première intelligence artificielle générale, ou AGI, est l’objectif de tous les principaux laboratoires IA. Il semble donc qu’OpenAI soit sur le point d’être le premier à y parvenir !
De nombreux chercheurs et développeurs IA estiment que quelque chose d’important vient de se produire, et qu’un cap majeur a été franchi…
ARC-AGI : le test qui mesure l’intelligence humaine
Pour bien comprendre ce que représente la prouesse accomplie par o3, il est nécessaire de savoir en quoi consiste le test ARC-AGI.
En termes techniques, ce test vise à mesurer « l’efficacité d’échantillon » d’un système IA pour l’adaptation à quelque chose de nouveau. Autrement dit : de combien d’exemples le système a besoin pour comprendre comment ça marche.
Afin de mesurer cette capacité d’adaptation et d’efficacité, le benchmark ARC-AGI utilise des problèmes de grille carrée. L’IA doit déterminer le schéma qui transforme la grille de gauche en grille de droite.
Chaque question s’accompagne de trois exemples à partir desquels apprendre, et le système IA doit réussir à comprendre les règles pour généraliser des trois exemples au quatrième.
En somme, ce benchmark n’est pas sans rappeler les tests de QI proposés aux humains. Voila pourquoi ARC-AGI s’apparente à un test d’intelligence humaine…
OpenAI o3 : la première AGI ?
Une IA comme GPT-4 n’est pas très efficace. Elle a été entraînée sur des millions d’exemples de tests humains, afin de construire des règles probabilistes sur les combinaisons de mots les plus probables.
Le résultat est plutôt satisfaisant sur les tâches communes, mais mauvais sur les tâches inhabituelles. Pour cause, le système a moins de données et d’échantillons à propos de ces tâches.
Tant que les systèmes IA ne peuvent apprendre à partir d’un petit nombre d’exemples et s’adapter avec une meilleure efficacité d’échantillon, ils ne pourront être utilisés que pour des tâches très répétitives où l’échec occasionnel est tolérable.
La capacité à résoudre des problèmes nouveaux ou précédemment inconnus à partir de données limitées est définie comme la capacité à généraliser. Elle est indispensable à la véritable intelligence. Voilà pourquoi on parle d’intelligence artificielle « générale ».
Si l’on se fie à ses résultats sur le test ARC-AGI, o3 se révèle très adaptable. À partir de quelques exemples, il trouve les règles pouvant être généralisées.
Pour comprendre une pattern, nul besoin de faire d’hypothèses inutiles ou d’être plus précis que nécessaire. Il suffit d’identifier les règles les plus « faibles » permettant de parvenir au résultat souhaité.
On parle là des règles pouvant être décrites par les déclarations les plus simples. Dès lors, la capacité à s’adapter à de nouvelles situations est maximisée.
Comment o3 a-t-il explosé ARC-AGI ?
On ignore comment OpenAI a obtenu de tels résultats. Il est toutefois peu probable que le système o3 ait été délibérément optimisé pour trouver les règles faibles. Néanmoins, il a forcément dû les trouver pour accomplir les tâches du test ARC-AGI.
On sait qu’OpenAI a commencé avec une version généraliste du modèle o3, qui se distingue par sa capacité à prendre le temps de « réfléchir » aux questions difficiles. Par la suite, cette version a été entraînée spécifiquement pour le test.
Selon le chercheur IA français François Chollet, qui a conçu ce benchmark, il est probable qu’o3 cherche à travers différentes « chaînes de pensée » décrivant les étapes pour résoudre une tâche. Il choisirait ensuite la meilleure, en se basant sur une règle vaguement définie.
Cette approche ne serait donc pas très différente de celle utilisée par le système Google AlphaGo pour chercher parmi les meilleures séquences possibles de mouvements pour triompher du champion de Jeu de Go en 2016.
Le processus employé par Google était d’entraîner son modèle pour évaluer différentes séquences de mouvements et les hiérarchiser de la meilleure à la pire.
Une IA qui peut révolutionner l’économie mondiale
Si le fonctionnement d’o3 est vraiment similaire à celui d’AlphaGo, son modèle sous-jacent n’est pas forcément meilleur que les précédents modèles.
Les concepts que le modèle apprend à partir du langage ne sont peut-être pas plus adaptés qu’avant pour la généralisation.
Il pourrait simplement s’agir d’une « chaîne de pensée » trouvée grâce à l’entraînement d’une heuristique spécialisée pour ce test en particulier.
Le modèle o3 reste drapé de mystère, car OpenAI s’est contenté de le présenter à quelques médias et de laisser une poignée de chercheurs et d’experts en cybersécurité l’essayer.
Comprendre son vrai potentiel nécessitera de l’évaluer, de comprendre la distribution de ses capacités, ou encore sa fréquence d’échec et de succès.
Il faudra donc attendre qu’il soit disponible pour vérifier si son intelligence se rapproche réellement de celle d’un humain.
Si tel est le cas, elle pourrait avoir un impact économique gigantesque et révolutionnaire et inaugurer une nouvelle ère dans laquelle l’IA s’améliore seule…
Qu’en pensez-vous ? OpenAI a-t-elle réellement réussi à créer une IA digne de l’intelligence humaine, ou bien les résultats au test ARC-AGI sont-ils superficiels ? Quel sera l’impact de cette IA lorsqu’elle sera lancée auprès du grand public ? Partagez votre avis en commentaire !
- Partager l'article :