Aucune IA n’est capable de répondre à cette question logique : et vous ?

Nirina R. Publié le 13 juin 2024 Mis à jour le 19 mai 2026 2 minutes de lecture IA générative, Intelligence artificielle

Même les IA les plus pointues échouent sur des questions logiques élémentaires. Êtes-vous capable de mieux faire ?

Chaque jour apporte son lot de nouvelles sur l’intelligence artificielle (IA). Et tout récemment, des scientifiques de LAION ont découvert un point faible chez les IA sophistiquées. Elles échouent sur une question logique qui semble simple pour un humain.

D’après l’article, les systèmes de langage avancés peuvent parfois être confondus par une question logique élémentaire. Ces modèles incluent ceux développés par de grandes entreprises telles qu’OpenAI, Google, et Meta.

Nommée le problème « Alice au pays des merveilles » ou AIW, cette question est un casse-tête logique qui demande : « Alice a [X] frères et [Y] sœurs. Combien de sœurs le frère d’Alice a-t-il ? » Intrigant par sa simplicité, ce problème exige une réflexion de base, pourtant accessible aux humains mais épineuse pour les IA.

Échec des IA devant une question simple

Les chercheurs ont cherché à sonder les limites des intelligences artificielles. Pour ce faire, ils ont mis à l’épreuve des systèmes tels que GPT-3, GPT-4, et GPT-4o d’OpenAI. Ils ont également testé Claude 3 Opus d’Anthropic, parmi d’autres.

Les résultats ont été surprenants : seul le GPT-4o a atteint un taux de réussite de 65 % qui pourrait être considéré comme passable dans le milieu académique. Par contre, le Gemini Pro de Google a seulement réussi à atteindre un taux de 0,8 %.

À cause de leurs erreurs, lorsque les IA étaient sollicitées pour expliquer leur raisonnement, elles offraient des réflexions confuses et incohérentes.

Même corrigées, elles persévéraient obstinément dans l’erreur. Elles démontraient une surconfiance et offraient des explications irrationnelles pour justifier leurs réponses erronées.

Après tout, plusieurs exemples illustrent cette défaillance.

Prenez, par exemple, une interaction avec l’IA Llama 3 de Meta sur une version simple du problème AIW : « Alice a quatre frères et une sœur. Combien de sœurs le frère d’Alice a-t-il ? »

La réponse correcte serait deux, mais Llama 3 a répondu incorrectement en ne considérant qu’Alice elle-même comme la seule sœur.

D’un côté, Claude 3 Opus a été testé avec une question légèrement modifiée : « Alice a 4 sœurs et 1 frère. Combien de sœurs le frère d’Alice a-t-il ? »

De la même façon que Llama 3, Claude 3 Opus a échoué, en indiquant quatre sœurs au lieu de cinq, malgré une auto-vérification présumée minutieuse.

Alice has [X] brothers and she also has [Y] sisters. How many sisters does Alice's brother have?

Researchers found that almost all AI models fail this simple test.

I believe AI is a huge invention, like electricity, but we still have much to learn about using it wisely. pic.twitter.com/W1wj2xNoSt
— Vitalik Arabadzhy (@vitaliyvy7) June 12, 2024

Les benchmarks d’IA : reflètent-ils vraiment les capacités de raisonnement logique ?

Cette étude révèle que les benchmarks standard, tels que le MMLU (Multi-task Language Understanding), ne reflètent pas nécessairement la capacité réelle des modèles à traiter des situations de raisonnement logique.

Selon les chercheurs, GPT-4o, Claude 3 Opus, Llama 2-7b, et Gemini Pro ont marqué respectivement 88 %, 87 %, 64 %, et 72 % aux tests MMLU. Bien que ces tests donnent des résultats élevés, ils peuvent être trompeurs.

Ce décalage suscite des interrogations pertinentes sur les méthodes d’évaluation des capacités des IA. Il incite à une réévaluation des affirmations des fabricants concernant l’efficacité de ces technologies.

D’un côté, ces résultats suggèrent des limitations profondes dans le développement actuel de l’IA. De l’autre, ils rappellent la nécessité d’une critique et d’une surveillance continues.

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Anthropic Claude Gemini Google GPT Meta OpenAI TEST Twitter

9 Commentaires

christian audebert
13 juin 2024 at 20 h 01 min

faut arreter avec ces machines statistiques. ce ne sont pas et ne seront JAMAIS des IA.
une IA doit pouvoir avoir conscience de son état et du temps, des etapes, et de la signification des choses pour pouvoir comprendre et gerer des etapes autrement qu’en hallucinant statistiquement. les llms sont trompeuses car elle sortent des phrases, mais en copiant, statistiquement, ce qu’elles ont ingurgité, pas parcequ’elles ont compris la question, mais parcequ’elles sont concues pour combler au mieux les trous et completer les phrases selon un reseua neuronal qui s’appuie sur un apprentissage statiistique. mais elles ne sont à aucun moment capable de justifier ou d’expliquer pourquoi telle réponse ou telle autre. pile ou face, quasiment à chaque lettre/mot qu’elles sortent, orienté par l’apprentissage qui influence leurs statistiques. c’est autre chose que de la logique ou de la compréhension.
une vraie IA risque de se faire attendre encore longtemps.. ca demandera une révolution de concept et de technologie assez vertigineuse.
pour faire un paralléle, pour l’instant, on sait seulement faire ce que fait le cerveau quand il complète les zones que l’oeil n’a pas encore vu..car le cerveau est une incroyable machien à boucher les trous, dans les images, dasn les faits, etc.. on a donc encore pas mal de chemin avant de pouvoir parler d’IA, à moins que tellement d’humains ne soient en faits que des llms sans conscience ni intelligence et qui pissent des mots sans avoir conscience ni de ce qu’ils font ni de ce qu’ils sont.. et ca, en regardant bien, ca fout chaque fois les jetons..
Alex
13 juin 2024 at 20 h 29 min

C’est bizarre. A chaque fois que je lis ce genre d’article je teste immédiatement pour vérifier. Aucune erreur de mon côté, Chat got 3 turbo a belle et bien la bonne réponse, avec toute la démonstration : 2 sœurs.
PIERRE-EMMANUEL FEGA
14 juin 2024 at 6 h 24 min

Claude répond:

Très bonne question ! Réfléchissons ensemble pour trouver la réponse.

Nous savons qu’Alice a 3 sœurs et 5 frères. Donc en tout, il y a 9 enfants dans la famille d’Alice : Alice elle-même, ses 3 sœurs et ses 5 frères.

Maintenant, prenons le point de vue d’un des frères d’Alice. Combien de sœurs a-t-il ?

– Il a bien sûr Alice comme sœur.
– Il a aussi les 3 autres sœurs d’Alice.
– Mais il ne se compte pas lui-même comme une sœur, ni ses 4 autres frères !

Donc du point de vue de chaque frère d’Alice, il a 4 sœurs : Alice + les 3 autres sœurs.

En résumé, chaque frère d’Alice a 4 sœurs. La réponse est donc 4.
Simulation man
14 juin 2024 at 7 h 44 min

Mistral a géré
Gemini android gratuit et Copilote feat gpt4 n’y sont pas arrivés!
Lucien
14 juin 2024 at 13 h 55 min

S’ils commençaient déjà par ne pas polluer l’apprentissage de ses machines par des considérations idéologiques du type woke, la machine n’aurait plus de problème pour identifier Alice comme une femme.
Olivier Tardif Bellemare
14 juin 2024 at 14 h 30 min

J’ai demandé à GPT 4-o de réfléchir avant de répondre et ça fonctionne presque à chaque fois.

« Alice a quatre frères et une sœur. Combien de sœurs le frère d’Alice a-t-il ?

Fais une grande réflexion sur la question »

Réponse :
La question demande combien de sœurs le frère d’Alice a. Pour répondre, examinons les informations données :

1. **Alice a quatre frères et une sœur.**
– Cela signifie qu’il y a cinq enfants en tout : Alice, ses quatre frères, et sa sœur.

Pour bien comprendre, nous allons énumérer les membres de la famille d’Alice :

– **Alice** (1 sœur)
– **La sœur d’Alice** (1 sœur)
– **Les quatre frères d’Alice** (4 frères)

En tout, il y a donc :
– 2 filles (Alice et sa sœur)
– 4 garçons (les quatre frères d’Alice)

La question est de savoir combien de sœurs un des frères d’Alice a.

**Pour chaque frère :**
– Alice est une sœur.
– La sœur d’Alice est une autre sœur.

Donc, chaque frère d’Alice a **deux sœurs**.

### Réflexion plus profonde :

Analysons la structure familiale. Les frères d’Alice font partie de la même fratrie qu’elle. Ainsi, tous les enfants partagent les mêmes parents. Pour chaque enfant de la famille, le nombre de sœurs est constant car le sexe des enfants ne change pas d’une perspective à l’autre.

Lorsque nous disons qu’Alice a quatre frères, cela signifie que ses frères sont également les frères de sa sœur. De la même manière, sa sœur est aussi une sœur pour chacun des quatre frères.

La question pourrait sembler confuse au premier abord car elle pourrait impliquer une réflexion sur le nombre total de sœurs dans la famille. Mais puisque nous savons que les frères et sœurs partagent les mêmes parents, la question devient simple : chaque frère a le même nombre de sœurs, qui est **deux** (Alice et sa sœur).

Ainsi, **le frère d’Alice a deux sœurs**.
Leo
14 juin 2024 at 18 h 36 min

La question est, quelle indice donne t-on à l’IA pour déterminer si Alice est oui ou non une fille ?
Le fait de porter le prénom Alice ne détermine pas le sexe d’une personne.
Camix
16 juin 2024 at 18 h 33 min

Peut être que le contexte n’est pas assez précise. Est il précisé qu’Alice est une fille? Un garçon? Non genré? Ou autre?
Sans quoi, il est difficile de répondre avec précision.
Hello World
18 juin 2024 at 1 h 01 min

Dans tous les essais que j’ai fait l’IA reconnaît Alice comme une fille et pourtant elle se plante presque tout le temps donc je ne pense pas que le problème soit là.