Le modèle o1 d’OpenAI, mal connu il y a peu, fait maintenant parler de lui. Avec un score impressionnant de 120 au test de QI de Mensa Norvège, il se place au-dessus de la moyenne humaine. Mais comment est-ce possible ?
Depuis février, il y avait peu d’amélioration du QI des IA. OpenAI o1 a été testée sur le test de QI de Mensa Norvège. Surprise ! Elle a obtenu 25 bonnes réponses sur 35 questions. C’est un score bien supérieur à la moyenne humaine, qui se situe généralement autour de 100.
Auparavant, les IA n’avaient pas atteint un tel niveau de performance. Alors, comment OpenAI o1 a-t-elle atteint un tel niveau de raisonnement ?
Comment OpenAI o1 résout les questions de QI
OpenAI o1 a surclassé toutes les autres intelligences artificielles sur le test de QI de Mensa Norvège. Par exemple, elle a répondu correctement à la question la plus difficile du quiz. La bonne réponse n’était probablement pas évidente pour beaucoup.
Alors, OpenAI o1 a donné une justification claire : « Option D — En analysant les motifs de la grille, chaque colonne combine certains composants pour inclure tous les éléments… ».
Elle a remarqué un modèle où chaque colonne devait contenir tous les éléments possibles. D’où son choix pour l’option D.
L’IA a également brillé sur des questions plus accessibles. Elle a expliqué : « Dans la troisième ligne, le modèle consiste à combiner les lignes des première et deuxième cellules et à supprimer toutes les lignes communes… ».
Elle a donc choisi l’option F, ce qui était exact. Pourtant, elle fait parfois des erreurs. Par exemple, elle a manqué la partie « supprimer les lignes communes » dans une question similaire. Néanmoins, ces erreurs sont rares.
Pour éviter que les questions soient dans ses données d’entraînement, un membre de Mensa, Jurij, a créé de nouvelles questions. Ces questions n’étaient pas publiées sur Internet.
Environ 40 personnes ont répondu à ces questions. OpenAI o1 a ensuite été soumis à ce nouveau test. Malheureusement, elle a obtenu des résultats moins bons.
Par contre, elle a quand même surpassé la plupart des participants humains. Cela confirme que ses capacités de raisonnement sont réelles. De plus, cela montre que son QI se situe probablement entre 100 et 120.
Une intelligence qui dépasse l’entraînement
Les résultats montrent qu’OpenAI o1 a obtenu un score élevé, même sur ces questions inédites. Elle a surpassé la plupart des participants humains. Cela suggère que ses capacités ne sont pas dues à des données d’entraînement spécifiques.
Contrairement à ce que l’on pourrait penser, OpenAI o1 ne repose pas uniquement sur des réponses pré-apprises.
Des recherches supplémentaires pourraient affiner ces résultats. Par exemple, en améliorant les descriptions verbales des questions. Il est possible que la manière dont les questions sont formulées influence les performances de l’IA.
En explorant différentes formulations, on pourrait mieux comprendre comment OpenAI o1 traite les informations.
Alors que certains modèles, comme Claude, progressent également, OpenAI o1 semble avoir une longueur d’avance. Il s’agit là d’une course contre le temps. Si cette tendance se poursuit, les IA pourraient atteindre un QI de 140 d’ici 2026.
- Partager l'article :