Le nouveau modèle d’OpenAI, o3, a beau être à la pointe, il délire à tout-va. Il brille plus que ses prédécesseurs en maths, en codage et même dans l’analyse d’images, c’est sûr ! Mais en même temps, l’hallucination, elle aussi, a empiré.
Pour ceux qui ne le savent pas, on dit qu’une IA hallucine lorsqu’elle ne sait pas quoi répondre et réécrit la réalité. Ce qui arrive plus souvent qu’on ne le croit. Pourquoi ?
Car si l’on croit la BBC, la moitié des réponses fournies par l’IA sont soit biaisées, soit carrément à côté de la plaque. Il faut juste croire que même un modèle sophistiqué n’échappe pas à ce phénomène.
Même OpenAI avoue ne pas comprendre pourquoi o3 délire
Depuis toujours, chaque nouveau modèle d’OpenAI faisait un peu moins d’erreurs que le précédent. Ce qui est tout à fait logique. Mais ce n’est pas le cas de o3… et de o4-mini aussi d’ailleurs.
Selon les expérimentations appelées PersonQA menées par la maison, ces deux modèles raisonnement — censés justement mieux réfléchir — délirent encore plus.
Pour être plus précis, o3 hallucine dans 33 % des cas. Et o4-mini atteint carrément les 48 %. Pour comparaison, les anciens modèles comme o1 et o3-mini restaient autour de 16 % et 14,8 %.
Des expériences tières ont également été réalisées par Transluce — un labo indépendant spécialisé dans l’IA. Et leurs chercheurs ont aussi mis le doigt sur un comportement assez surprenant : o3 se prend parfois pour un humain.
Il lui arrive d’inventer des actions pour mieux étoffer ses réponses. Par exemple ? Il a déjà affirmé avoir lancé du code sur un MacBook Pro 2021 en dehors de l’environnement ChatGPT, puis copié les résultats obtenus. Sauf que non, une IA ne peut pas avoir de MacBook, et encore moins de bras pour taper dessus.
Le plus drôle, c’est qu’OpenAI a avoué ne pas savoir pourquoi ses nouveaux cerveaux numériques délirent autant.
Dans son rapport technique consacré à o3 et o4-mini, l’entreprise a déclaré que des recherches supplémentaires seront nécessaires pour comprendre pourquoi les hallucinations deviennent plus fréquentes à mesure que ses modèles de raisonnement gagnent en puissance.
Trop d’imagination tue l’information
Les prouesses de o3 et o4-mini sont impressionnantes. Ils cartonnent en maths, en code, en sciences, en perception visuelle et même en génération d’images.
Et pour la première fois, ces modèles ne se contentent pas de lire, ils voient aussi. On peut leur envoyer une photo floue d’un tableau blanc, un dessin tremblotant ou un schéma griffonné sur un coin de nappe, et ils comprennent.
Ils intègrent l’image dans leur raisonnement, et ça fonctionne ! Et avec cette capacité, les usages s’élargissent. Éducation, ingénierie, recherche… toutes les disciplines qui jonglent avec du texte et de l’image en même temps trouvent ici un allié de poids.
Et ce n’est pas tout : ces modèles ont un passeport premium pour tous les outils ChatGPT. Navigation web, analyse de documents, génération d’images, exécution de code Python…
Ils savent tout faire et peuvent combiner toutes ces compétences pour répondre à des demandes bien complexes. Mais comme ils parlent beaucoup, ils finissent par dire n’importe quoi.
Leurs réponses sont plus nombreuses, plus précises mais aussi bourrées d’inexactitudes. Et cela risque de tout gâcher. Exactement comme l’a dit Sarah Schwettmann, cofondatrice de Transluce.
Dans les environnements où la précision est cruciale — comme la médecine, le droit ou la finance — ce délire de o3 peut faire fuir les entreprises.
Alors, qu’est-ce que vous en pensez ?
- Partager l'article :