Afin d’évaluer à quel point les IA ont évolué en 75 ans, des chercheurs californiens ont fait passer le fameux test de Turing à ChatGPT. Dans plus de la moitié des cas, les participants ont cru qu’il s’agissait d’un humain…
Les outils IA de dernière génération comme GPT-4 ou Claude 3.5 sont désormais capables de générer du texte d’une manière si naturelle, qu’il devient très difficile de savoir si vous conversez avec un humain ou une machine.
Cette évolution nous renvoie au fameux test d’Alan Turing. Afin d’évaluer le niveau d’intelligence d’une machine, il l’avait fait discuter avec des humains pour voir s’ils sauraient reconnaître qu’il s’agissait d’une IA.
À présent, près de 75 ans plus tard, le Department of Cognitive Science de l’UC San Diego a décidé de réitérer l’expérience avec les IA modernes.
ChatGPT passe le test de Turing
Les chercheurs ont soumis le chatbot Eliza daté des années 1960, GPT-3.5 et GPT-4 au test de Turing. Les participants ont eu 5 minutes pour discuter avec un interlocuteur, sans savoir si c’était un humain ou une machine. Ils devaient ensuite tenter de deviner.
Toutefois, pour pimenter un peu l’expérience, l’équipe a indiqué à GPT-4 et GPT-3.5 comment répondre aux messages. Ils devaient « adopter la personnalité d’une jeune personne très concise, qui ne prend pas le jeu très sérieusement, utilise l’argotique, et fait des erreurs d’orthographe occasionnelles ».
Le prompt contenait également « des informations générales sur les conditions du jeu, et des informations sur les récentes actualités survenues après la fin de son entraînement ».
L’accès aux deux modèles s’est fait via l’API OpenAI, avec une température réglée sur 1. Par ailleurs, pour empêcher l’IA de répondre trop vite, les messages étaient envoyés avec un délai basé sur le nombre de caractères.
Plus de la moitié des juges se sont trompés
De leur côté, les participants ont été divisés en cinq groupes. Ils ont été engagés dans une conversation avec soit un humain, soit l’une des trois IA.
L’interface du jeu ressemblait à une application de messagerie classique. Après 5 minutes, ils devaient indiquer s’ils pensaient avoir eu une conversation avec un humain ou une IA et indiquer pour quelles raisons.
Les résultats sont intéressants. Dans 54% des cas, GPT-4 a été identifié comme humain, juste devant GPT-3.5 à 50%. Ils surpassent largement ELIZA qui n’a trompé que 22% des participants.
Néanmoins, les vrais humains restent les plus convaincants puisqu’ils ont été identifiés correctement dans 67% des cas.
Toutefois, en parvenant à tromper ses interlocuteurs dans plus de la moitié des cas, GPT-4 a prouvé sa capacité à s’exprimer de façon très naturelle. Alors comment cette simple IA a-t-elle pu créer l’illusion ?
Comment GPT-4 a piégé les humains ?
L’analyse des résultats montre que les participants se sont généralement appuyés sur le style linguistique, les facteurs socio-émotionnels, ou les questions basées sur des connaissances pour décider s’ils parlaient à un humain ou une machine.
Force est de constater que ChatGPT est désormais capable d’égaler une vraie personne sur ces critères. Pourtant, rappelons que le CEO d’OpenAI, Sam Altman, a affirmé que GPT-4 est totalement stupide en comparaison avec les prochaines versions en cours de développement !
Dans un avenir imminent, il deviendra très certainement impossible de distinguer la machine de l’Homme. Et avec l’émergence des IA vocales, voire même dotées d’un corps robotique, nous pourrions tous être trompés au téléphone ou dans le monde réel…
Si cette étude vous intéresse, vous pouvez consulter les résultats complets sur le site arXiv en suivant ce lien !
Et vous, arrivez-vous encore à faire la différence entre une IA et un humain ? Comment vous y prenez-vous ? Quelles sont selon vous les principales limites de ces chatbots ? Partagez votre avis en commentaire !
- Partager l'article :