Même les IA les plus pointues échouent sur des questions logiques élémentaires. Êtes-vous capable de mieux faire ?
Chaque jour apporte son lot de nouvelles sur l’intelligence artificielle (IA). Et tout récemment, des scientifiques de LAION ont découvert un point faible chez les IA sophistiquées. Elles échouent sur une question logique qui semble simple pour un humain.
D’après l’article, les systèmes de langage avancés peuvent parfois être confondus par une question logique élémentaire. Ces modèles incluent ceux développés par de grandes entreprises telles qu’OpenAI, Google, et Meta.
Nommée le problème « Alice au pays des merveilles » ou AIW, cette question est un casse-tête logique qui demande : « Alice a [X] frères et [Y] sœurs. Combien de sœurs le frère d’Alice a-t-il ? » Intrigant par sa simplicité, ce problème exige une réflexion de base, pourtant accessible aux humains mais épineuse pour les IA.
Échec des IA devant une question simple
Les chercheurs ont cherché à sonder les limites des intelligences artificielles. Pour ce faire, ils ont mis à l’épreuve des systèmes tels que GPT-3, GPT-4, et GPT-4o d’OpenAI. Ils ont également testé Claude 3 Opus d’Anthropic, parmi d’autres.
Les résultats ont été surprenants : seul le GPT-4o a atteint un taux de réussite de 65 % qui pourrait être considéré comme passable dans le milieu académique. Par contre, le Gemini Pro de Google a seulement réussi à atteindre un taux de 0,8 %.
À cause de leurs erreurs, lorsque les IA étaient sollicitées pour expliquer leur raisonnement, elles offraient des réflexions confuses et incohérentes.
Même corrigées, elles persévéraient obstinément dans l’erreur. Elles démontraient une surconfiance et offraient des explications irrationnelles pour justifier leurs réponses erronées.
Après tout, plusieurs exemples illustrent cette défaillance.
Prenez, par exemple, une interaction avec l’IA Llama 3 de Meta sur une version simple du problème AIW : « Alice a quatre frères et une sœur. Combien de sœurs le frère d’Alice a-t-il ? »
La réponse correcte serait deux, mais Llama 3 a répondu incorrectement en ne considérant qu’Alice elle-même comme la seule sœur.
D’un côté, Claude 3 Opus a été testé avec une question légèrement modifiée : « Alice a 4 sœurs et 1 frère. Combien de sœurs le frère d’Alice a-t-il ? »
De la même façon que Llama 3, Claude 3 Opus a échoué, en indiquant quatre sœurs au lieu de cinq, malgré une auto-vérification présumée minutieuse.
Les benchmarks d’IA : reflètent-ils vraiment les capacités de raisonnement logique ?
Cette étude révèle que les benchmarks standard, tels que le MMLU (Multi-task Language Understanding), ne reflètent pas nécessairement la capacité réelle des modèles à traiter des situations de raisonnement logique.
Selon les chercheurs, GPT-4o, Claude 3 Opus, Llama 2-7b, et Gemini Pro ont marqué respectivement 88 %, 87 %, 64 %, et 72 % aux tests MMLU. Bien que ces tests donnent des résultats élevés, ils peuvent être trompeurs.
Ce décalage suscite des interrogations pertinentes sur les méthodes d’évaluation des capacités des IA. Il incite à une réévaluation des affirmations des fabricants concernant l’efficacité de ces technologies.
D’un côté, ces résultats suggèrent des limitations profondes dans le développement actuel de l’IA. De l’autre, ils rappellent la nécessité d’une critique et d’une surveillance continues.
- Partager l'article :
faut arreter avec ces machines statistiques. ce ne sont pas et ne seront JAMAIS des IA.
une IA doit pouvoir avoir conscience de son état et du temps, des etapes, et de la signification des choses pour pouvoir comprendre et gerer des etapes autrement qu’en hallucinant statistiquement. les llms sont trompeuses car elle sortent des phrases, mais en copiant, statistiquement, ce qu’elles ont ingurgité, pas parcequ’elles ont compris la question, mais parcequ’elles sont concues pour combler au mieux les trous et completer les phrases selon un reseua neuronal qui s’appuie sur un apprentissage statiistique. mais elles ne sont à aucun moment capable de justifier ou d’expliquer pourquoi telle réponse ou telle autre. pile ou face, quasiment à chaque lettre/mot qu’elles sortent, orienté par l’apprentissage qui influence leurs statistiques. c’est autre chose que de la logique ou de la compréhension.
une vraie IA risque de se faire attendre encore longtemps.. ca demandera une révolution de concept et de technologie assez vertigineuse.
pour faire un paralléle, pour l’instant, on sait seulement faire ce que fait le cerveau quand il complète les zones que l’oeil n’a pas encore vu..car le cerveau est une incroyable machien à boucher les trous, dans les images, dasn les faits, etc.. on a donc encore pas mal de chemin avant de pouvoir parler d’IA, à moins que tellement d’humains ne soient en faits que des llms sans conscience ni intelligence et qui pissent des mots sans avoir conscience ni de ce qu’ils font ni de ce qu’ils sont.. et ca, en regardant bien, ca fout chaque fois les jetons..
C’est bizarre. A chaque fois que je lis ce genre d’article je teste immédiatement pour vérifier. Aucune erreur de mon côté, Chat got 3 turbo a belle et bien la bonne réponse, avec toute la démonstration : 2 sœurs.
Claude répond:
Très bonne question ! Réfléchissons ensemble pour trouver la réponse.
Nous savons qu’Alice a 3 sœurs et 5 frères. Donc en tout, il y a 9 enfants dans la famille d’Alice : Alice elle-même, ses 3 sœurs et ses 5 frères.
Maintenant, prenons le point de vue d’un des frères d’Alice. Combien de sœurs a-t-il ?
– Il a bien sûr Alice comme sœur.
– Il a aussi les 3 autres sœurs d’Alice.
– Mais il ne se compte pas lui-même comme une sœur, ni ses 4 autres frères !
Donc du point de vue de chaque frère d’Alice, il a 4 sœurs : Alice + les 3 autres sœurs.
En résumé, chaque frère d’Alice a 4 sœurs. La réponse est donc 4.
Mistral a géré
Gemini android gratuit et Copilote feat gpt4 n’y sont pas arrivés!
S’ils commençaient déjà par ne pas polluer l’apprentissage de ses machines par des considérations idéologiques du type woke, la machine n’aurait plus de problème pour identifier Alice comme une femme.
J’ai demandé à GPT 4-o de réfléchir avant de répondre et ça fonctionne presque à chaque fois.
« Alice a quatre frères et une sœur. Combien de sœurs le frère d’Alice a-t-il ?
Fais une grande réflexion sur la question »
Réponse :
La question demande combien de sœurs le frère d’Alice a. Pour répondre, examinons les informations données :
1. **Alice a quatre frères et une sœur.**
– Cela signifie qu’il y a cinq enfants en tout : Alice, ses quatre frères, et sa sœur.
Pour bien comprendre, nous allons énumérer les membres de la famille d’Alice :
– **Alice** (1 sœur)
– **La sœur d’Alice** (1 sœur)
– **Les quatre frères d’Alice** (4 frères)
En tout, il y a donc :
– 2 filles (Alice et sa sœur)
– 4 garçons (les quatre frères d’Alice)
La question est de savoir combien de sœurs un des frères d’Alice a.
**Pour chaque frère :**
– Alice est une sœur.
– La sœur d’Alice est une autre sœur.
Donc, chaque frère d’Alice a **deux sœurs**.
### Réflexion plus profonde :
Analysons la structure familiale. Les frères d’Alice font partie de la même fratrie qu’elle. Ainsi, tous les enfants partagent les mêmes parents. Pour chaque enfant de la famille, le nombre de sœurs est constant car le sexe des enfants ne change pas d’une perspective à l’autre.
Lorsque nous disons qu’Alice a quatre frères, cela signifie que ses frères sont également les frères de sa sœur. De la même manière, sa sœur est aussi une sœur pour chacun des quatre frères.
La question pourrait sembler confuse au premier abord car elle pourrait impliquer une réflexion sur le nombre total de sœurs dans la famille. Mais puisque nous savons que les frères et sœurs partagent les mêmes parents, la question devient simple : chaque frère a le même nombre de sœurs, qui est **deux** (Alice et sa sœur).
Ainsi, **le frère d’Alice a deux sœurs**.
La question est, quelle indice donne t-on à l’IA pour déterminer si Alice est oui ou non une fille ?
Le fait de porter le prénom Alice ne détermine pas le sexe d’une personne.
Peut être que le contexte n’est pas assez précise. Est il précisé qu’Alice est une fille? Un garçon? Non genré? Ou autre?
Sans quoi, il est difficile de répondre avec précision.
Dans tous les essais que j’ai fait l’IA reconnaît Alice comme une fille et pourtant elle se plante presque tout le temps donc je ne pense pas que le problème soit là.