L'IA ne sait pas analyser une horloge

L’IA est soi-disant supérieure à l’humain, mais ne peut pas faire cette simple tâche

Il paraît que l’IA surpassera bientôt l’homme. Elle rédige des articles, peint des tableaux et fait des calculs complexes en un éclair. Mais ceux qui l’ont dit ont oublié un détail. Elle ne sait même pas lire l’heure.

🔥 Nous recommandons Gemini

 

Gemini transforme la manière dont vous interagissez avec l’IA, en combinant texte, images, audio et vidéo pour offrir des réponses et solutions multimodales. Que ce soit pour la rédaction, la programmation, ou l’analyse de données, Gemini fournit des outils puissants pour optimiser votre productivité. Disponible dans plusieurs produits Google comme Gmail, Google Docs, et Google Workspace, Gemini facilite la collaboration et l’efficacité au sein des équipes, quelle que soit leur taille.

Face à une simple horloge analogique, l’IA cale lamentablement. Des chercheurs de l’Université d’Édimbourg ont mis les plus grands modèles au défi et le résultat était déconcertant. Même un enfant de six ans en rirait.

Je vous explique…

L’étude s’est penchée sur les performances des modèles de langage multimodaux (MLLM). C’est-à-dire, ces systèmes capables d’analyser simultanément du texte et des images.

Parmi eux figurent le modèle de Google, celui d’OpenAI, d’Anthropic et d’autres acteurs du secteur. Les tests ont porté sur des horloges ainsi que des calendriers annuels.

Les chercheurs leur ont soumis plusieurs types d’horloges, incluant des cadrans avec chiffres romains, avec et sans trotteuse, et aux designs variés. Et comme je disais, pour des IA aussi sophistiquées, les résultats étaient des plus décevants.

Elles ont rarement su positionner les aiguilles. Les erreurs étaient encore plus fréquentes face aux chiffres romains ou aux cadrans au design complexe. D’ailleurs, l’absence de trotteuse a également accentué les échecs.

Bref, Google Gemini s’est révélé être le plus performant du lot. Et devinez quoi : ses réponses n’ont été correctes que dans 25 % des tests.

Côté calendrier, le résultat était légèrement meilleur, mais loin d’être parfait. Le modèle GPT-o1 d’OpenAI s’en est mieux sorti sur l’analyse des dates, atteignant 80 % de bonnes réponses. 

Néanmoins, il a échoué dans un cas sur cinq face à des questions aussi simples que « Quel jour de la semaine tombe le jour de l’An ? » ou « Quel est le 153e jour de l’année ? ».

Il faut croire que comme toute chose, l’IA a ses limites

Nous les humains – du moins, la plupart – avons appris à lire l’heure et à utiliser un calendrier dès notre plus jeune âge. Et bien qu’il s’agit d’une simple tâche, il y a de quoi en être fier. Pourquoi ?

Car même les modèles d’IA ayant à sa disposition une énorme quantité de données et de connaissances n’en sont pas capables. Un détail qui, selon Rohit Saxena, auteur principal de l’étude, doit impérativement être revu.

C’est le seul moyen de garantir l’intégration efficace de ces technologies dans des applications nécessitant une gestion précise du temps, comme la planification ou l’automatisation.

YouTube video

Cette incapacité de l’IA à lire l’heure fera, d’ailleurs, l’objet d’un article qui sera présenté lors de la conférence internationale ICLR, le 28 avril 2025. Prévu à Singapour, il s’agit d’un atelier sur le raisonnement et la planification des grands modèles de langage.

Alors, qu’est-ce que vous en pensez ? Personnellement, le moins que je puisse dire c’est que malgré ses avancées spectaculaires, l’IA n’a pas encore fini d’apprendre les bases. Et vous ?

Partagez vos perceptions dans le commentaire !

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥