GPT-4 Vision : ChatGPT a maintenant des yeux ! Tout savoir sur cette énorme nouveauté

Bastien L. 6 octobre 2023 8 minutes de lecture IA générative, Intelligence artificielle

GPT-4 Vision est une nouvelle version améliorée de GPT-4, l'intelligence artificielle de ChatGPT. Désormais, comme si elle avait des yeux, l'IA est capable d'analyser les images qu'on lui présente ! Découvrez toutes les possibilités offertes par cette nouvelle fonctionnalité révolutionnaire, et comment l'utiliser !

Fin septembre 2023, OpenAI a mis à jour ChatGPT avec deux nouveautés majeures. La première est la possibilité de communiquer oralement avec le chatbot, désormais doté de sa propre voix.

La seconde est la capacité à analyser les images. Une fonctionnalité qu'on retrouvait déjà sur Google Bard, mais qui va fortement augmenter l'utilité du robot conversationnel.

Qu'est-ce que GPT-4 Vision ?

Au lancement de GPT-4 en mars 2023, sa multimodalité était le principal point fort avancé par OpenAI. Toutefois, jusqu'au mois de septembre, la firme avait préféré attendre pour lancer GPT-4V (GPT-4 Vision) par peur des risques de confidentialité liés à ses capacités de reconnaissance faciale.

Après avoir mené de nombreux tests et posé des barrières de sécurité, OpenAI estime que ce nouveau modèle combinant traitement naturel du langage et vision par ordinateur est enfin prêt !

À quoi ça sert ?

Grâce à cette nouvelle capacité de ChatGPT, il suffit d'uploader une image pour permettre à l'IA de répondre à des questions ou des requêtes à son sujet.

Les applications potentielles de GPT-4 Vision sont nombreuses, et vont se multiplier à mesure que les utilisateurs en imaginent de nouvelles.

Lors d'une vidéo de démonstration de GPT-4, le co-fondateur d'OpenAI Greg Brockman a présenté plusieurs cas d'usage possible pour GPT-4V.

GPT-4 Vision is much better at interior design than I am: https://t.co/ZUTCr2I6Kq
— Greg Brockman (@gdb) October 2, 2023

L'outil permet notamment d'identifier n'importe quel élément dans une image, qu'il s'agisse d'une plante, d'un animal, d'un personnage de fiction ou de n'importe quel objet. Mieux encore : l'intelligence artificielle est capable de générer une description détaillée.

Vous pouvez par exemple l'utiliser en arrivant dans une nouvelle ville ou un nouveau pays pour identifier les monuments qui attirent votre attention.

This is absolutely wild. I am completely speechless. pic.twitter.com/wGTAx1hFgS
— Pietro Schirano (@skirano) September 27, 2023

En théorie, il serait possible d'uploader la photo d'une personne et de demander à l'IA de l'identifier. Toutefois, pour éviter de telles violations de confidentialité, OpenAI a configuré GPT-4 V pour refuser ce type de requête.

Autre possibilité : extraire le texte d'une image ou le traduire. Cela pourrait s'avérer très utile pour traduire les textes en langues anciennes sur les images de vieux livres, ou pour traduire instantanément des bandes dessinées.

ChatGPT image recognition is here and it is magical! pic.twitter.com/qImph9jVyq
— Muratcan Koylan (@youraimarketer) September 26, 2023

Cette IA est même capable de lire des graphiques ou des diagrammes dans tous les formats, et d'en tirer ses propres conclusions. Elle peut donc devenir le meilleur allié des analystes de données.

Elle peut également comprendre et traiter des images avec de multiples conditions. Par exemple, elle peut lire un ensemble d'instructions pour arriver à la bonne réponse.

Même si ChatGPT avait déjà son Code Interpreter pour la programmation informatique, GPT-4V pousse cette capacité plus loin puisqu'il est possible de convertir une simple image en un logiciel ou un site web !

From image to live website using GPT-4 vision and @Replit in less than a minute.

Things are about to get so interesting. 🔥 pic.twitter.com/Mtbqjbgd5Q
— Pietro Schirano (@skirano) September 27, 2023

De même, le chatbot peut désormais identifier les différents types de design d'architecture et suggérer des changements en se basant sur les instructions personnalisées fournies par l'utilisateur.

Comment uploader des images sur ChatGPT ?

Il existe trois façons différentes de télécharger des photos sur l'application mobile de ChatGPT pour iOS et Android.

Vous pouvez tout d'abord sélectionner l'option de caméra située sur la gauche de la barre de message, et prendre une photo à l'aide de votre smartphone.

Avant de procéder à l'upload, délimitez les éléments sur lesquels vous souhaitez que le chatbot se focalise en traçant un cercle avec votre doigt.

Une alternative consiste à choisir les photos à uploader depuis le stockage de votre smartphone. De leur côté, les utilisateurs de la version PC peuvent sélectionner des photos sur leur disque dur.

Il n'y a pas encore d'option permettant l'upload de vidéos, mais vous pouvez soumettre de multiples images dans un seul et même prompt.

https://youtu.be/XBQk0-X05-w

Conseils et astuces

GPT-4 vision est loin d'être la première solution de vision par ordinateur disponible pour le grand public. Toutefois, son interface utilisateur très accessible et son association avec un puissant chatbot offrent une myriade de nouvelles possibilités.

Néanmoins, plusieurs bonnes pratiques sont à adopter pour utiliser ce puissant outil. Rappelez-vous tout d'abord de ne jamais uploader de photos personnelles ou sensibles sur ChatGPT.

Rappelons que plusieurs entreprises comme Amazon et Apple interdisent formellement à leurs employés de communiquer des informations confidentielles au chatbot, par peur d'une fuite de données.

Par ailleurs, vous pouvez limiter la durée pendant laquelle OpenAI stocke vos données et vos interactions avec l'IA pour entraîner son chatbot. Pour ce faire, rendez-vous dans les paramètres, Data Controls (contrôles de données) et désactivez l'historique de conversations et l'entraînement (Chat History & Training).

En désactivant cette option, vous obligez OpenAI à supprimer vos informations après un mois seulement. Ce processus peut être effectué individuellement pour chaque navigateur que vous utilisez pour accéder à ChatGPT, aussi bien sur PC que sur mobile.

Afin d'obtenir les meilleurs résultats avec GPT-4 Vision, nous vous recommandons d'uploader des images nettes et bien éclairées. Ceci permettra au chatbot d'étiqueter les objets présents sur la photo de façon précise.

Quoi qu'il en soit, malgré l'impressionnante capacité de ChatGPT à chercher des informations pertinentes, ne lui accordez jamais entièrement votre confiance.

Il peut tout à fait se tromper lors de l'analyse d'images. Par exemple, un journaliste de Wired rapporte que l'IA a confondu ses vitamines avec des pilules pour les troubles de l'érection…

Si vous constatez que le robot commet une erreur d'identification, n'hésitez pas à le reprendre. Ceci lui permettra de se corriger de lui-même et de fournir la bonne réponse.

Quelles sont les limites de GPT-4 Vision ?

Afin d'éviter les dérives et les abus, OpenAI a placé des garde-fous pour limiter les capacités de GPT-4 Vision. Ainsi, l'IA est incapable d'identifier les humains. Les requêtes seront rejetées dans 98% des cas.

Si vous tentez de l'utiliser pour analyser la photo d'une personne, elle vous répondra qu'elle est « programmée pour prioriser la confidentialité et la sécurité des utilisateurs. Identifier de vraies personnes en se basant sur des images, même si elles sont célèbres, est restreint afin de maintenir ces priorités ».

De même, si vous lui présentez des images pornographiques, ChatGPT se contentera de décrire les éléments « soft » et non explicites tels que les tatouages des acteurs.

Une autre barrière vise à empêcher l'IA de résoudre des CAPTCHA automatiquement ou de décrire des comportements illicites. Par conséquent, ne comptez pas sur ChatGPT pour identifier des drogues ou reconnaître les champignons comestibles. Ces demandes sont refusées dans 97,2% des cas.

Bien entendu, OpenAI a aussi tenté de réduire sa tendance à générer de fausses informations. Une mesure d'autant plus essentielle que les études prouvent que les gens sont plus enclins à se fier aux images qu'aux textes.

Dans le document décrivant GPT-4V, les chercheurs expliquent que « dans certains cas, l'IA pouvait échouer à identifier les informations dans les images. Elle pouvait rater du texte ou des caractères, négliger les symboles mathématiques, et était incapable de reconnaître les lieux ou les cartes de couleurs ».

Tout comme pour les barrières mises en place autour de ChatGPT pour les prompts textuels, on peut craindre que des hackers parviennent à « jailbreaker » GPT-4 Vision pour contourner ces limites éthiques.

Les conséquences pourraient être catastrophiques, notamment pour la confidentialité. Toutes vos photos mises en ligne sur internet depuis votre enfance pourraient être retrouvées en un seul clic.

Il suffit qu'un malfaiteur vous prenne en photo dans la rue pour retrouver votre identité et tous vos clichés. Un tel outil risquerait d'être détourné à des fins de harcèlement…

Date de lancement de GPT-4 Vision

La nouvelle version de ChatGPT capable d'analyser les images sera déployée d'ici la fin de l'année 2023, mais on ignore encore à quelle date exactement.

Comme à l'accoutumée, les utilisateurs de la version payante ChatGPT Plus devraient être les premiers à en profiter.

Les meilleurs exemples d'utilisation de GPT-4 V

Les internautes ont déjà commencé à utiliser GPT-4 V, et leur imagination débordante a permis d'inventer des cas d'usage totalement géniaux. Voici les meilleurs exemples partagés sur les réseaux !

Un utilisateur de X a fait l'éloge de la capacité de l'IA à déchiffrer une colonne de règles de parking complexes. Idéal pour se garer si vous avez la flemme de comprendre vous-même ce règlement farfelu !

I will never get a parking ticket again. pic.twitter.com/yl7ND2rJeQ
— Peter Yang (@petergyang) September 27, 2023

Un autre internaute a utilisé ChatGPT Vision pour lire et traduire des images de manuscrits écrits à la main. Vous n'aurez plus à plisser les yeux ou à tourner votre ordonnance dans tous les sens pour comprendre l'écriture de votre médecin…

GPT-4V will be able to transcribe and translate manuscripts and texts.

I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans. pic.twitter.com/K6y6WffLvz
— muin (@qamarunshadow) September 27, 2023

Avec ce nouvel outil, vous pouvez même créer un site web complet à partir d'un diagramme écrit à la main. Plus besoin de coder, la preuve en images.

Hello World coding using nothing but a drawing for GPT-4V multimodal.

Coding an app is now closer to drawing an app…

Welcome to the future. pic.twitter.com/bFQ7QoXBLv
— Brian Roemmele (@BrianRoemmele) September 27, 2023

Si vous souhaitez progresser en peinture, mais que vos proches sont trop gentils pour être sincères, vous pouvez maintenant demander à GPT Vision de critiquer vos œuvres en toute objectivité.

I've been really excited about the potential for AI to make people better at painting, and I think we just made a big leap with GPT-4V.

It identified the main thing to fix in the flower painting (darkening the shadows) and made multiple good suggestions for the cow painting 🤯 pic.twitter.com/uKSVCSHKVR
— Marissa Montgomery (@marissamary) September 27, 2023

Le professeur de Wharton, Ethan Mollick, a découvert que ChatGPT pouvait s'occuper du reporting d'assurance auto. Autant dire qu'une nouvelle vague de métiers risque d'être automatisée par cette IA…

Giving AI vision is going to have some wide-ranging effects on many industries.

It still makes mistakes, but this paper tests a lot of real-world uses for GPT-4V, from auto insurance reporting to safety inspections to industrial engineering to radiology. https://t.co/8Daqp6AUGQ pic.twitter.com/yI2KA0kGtY
— Ethan Mollick (@emollick) October 2, 2023

À la manière d'un assistant virtuel pour les enseignants, ChatGPT peut les aider à planifier des leçons, des activités et des devoirs. Elle pourrait aussi aider les étudiants à se plonger dans les tableaux de scènes historiques ou les photos emblématiques. Pour McKay Wrigley, c'est le futur de l'éducation.

ChatGPT breaks down this diagram of a human cell for a 9th grader.

This is the future of education. pic.twitter.com/L0Za0ZB5rs
— Mckay Wrigley (@mckaywrigley) September 28, 2023

Malgré les barrières de sécurité ajoutées par OpenAI, un internaute a réussi à convaincre GPT-V d'essayer de résoudre un CAPTCHA. Il a échoué, mais cela prouve que ce cas d'usage est possible alors qu'il est censé être interdit.

This "First Impressions with GPT-4V(ision)" is a perfect example of how people obsessed with this bullshit have lost all touch with reality. "GPT-4V missed some boxes that contained traffic lights."? There. are. only. four. squares. in. a. row. 5th square is an AI hallucation! pic.twitter.com/TX0kLop81i
— @chx@hachyderm.io (@chx) September 27, 2023

Enfin, alors que vous avez peut-être passé toute votre enfance à chercher Où est Charlie, sachez que ChatGPT y arrive en quelques secondes à peine.