gpt-4 vision

GPT-4 Vision : ChatGPT a maintenant des yeux ! Tout savoir sur cette énorme nouveauté

-4 Vision est une nouvelle version améliorée de GPT-4, l'intelligence artificielle de . Désormais, comme si elle avait des yeux, l'IA est capable d'analyser les images qu'on lui présente ! Découvrez toutes les possibilités offertes par cette nouvelle fonctionnalité révolutionnaire, et comment l'utiliser !

Fin septembre 2023, a mis à jour ChatGPT avec deux nouveautés majeures. La première est la possibilité de communiquer oralement avec le chatbot, désormais doté de sa propre voix.

La seconde est la capacité à analyser les images. Une fonctionnalité qu'on retrouvait déjà sur Google Bard, mais qui va fortement augmenter l'utilité du robot conversationnel.

Qu'est-ce que GPT-4 Vision ?

Au lancement de GPT-4 en mars 2023, sa multimodalité était le principal point fort avancé par OpenAI. Toutefois, jusqu'au mois de septembre, la firme avait préféré attendre pour lancer GPT-4V (GPT-4 Vision) par peur des risques de confidentialité liés à ses capacités de reconnaissance faciale.

Après avoir mené de nombreux tests et posé des barrières de sécurité, OpenAI estime que ce nouveau modèle combinant traitement naturel du langage et vision par ordinateur est enfin prêt !

À quoi ça sert ?

Grâce à cette nouvelle capacité de ChatGPT, il suffit d'uploader une image pour permettre à l'IA de répondre à des questions ou des requêtes à son sujet.

Les applications potentielles de GPT-4 Vision sont nombreuses, et vont se multiplier à mesure que les utilisateurs en imaginent de nouvelles.

Lors d'une vidéo de démonstration de GPT-4, le co-fondateur d'OpenAI Greg Brockman a présenté plusieurs cas d'usage possible pour GPT-4V.

L'outil permet notamment d'identifier n'importe quel élément dans une image, qu'il s'agisse d'une plante, d'un animal, d'un personnage de fiction ou de n'importe quel objet. Mieux encore : l'intelligence artificielle est capable de générer une description détaillée.

Vous pouvez par exemple l'utiliser en arrivant dans une nouvelle ville ou un nouveau pays pour identifier les monuments qui attirent votre attention.

En théorie, il serait possible d'uploader la photo d'une personne et de demander à l'IA de l'identifier. Toutefois, pour éviter de telles violations de confidentialité, OpenAI a configuré GPT-4 V pour refuser ce type de requête.

Autre possibilité : extraire le texte d'une image ou le traduire. Cela pourrait s'avérer très utile pour traduire les textes en langues anciennes sur les images de vieux livres, ou pour traduire instantanément des bandes dessinées.

Cette IA est même capable de lire des graphiques ou des diagrammes dans tous les formats, et d'en tirer ses propres conclusions. Elle peut donc devenir le meilleur allié des analystes de données.

Elle peut également comprendre et traiter des images avec de multiples conditions. Par exemple, elle peut lire un ensemble d'instructions pour arriver à la bonne réponse.

Même si ChatGPT avait déjà son Code Interpreter pour la programmation informatique, GPT-4V pousse cette capacité plus loin puisqu'il est possible de convertir une simple image en un logiciel ou un site web !

De même, le chatbot peut désormais identifier les différents types de design d'architecture et suggérer des changements en se basant sur les instructions personnalisées fournies par l'utilisateur.

Comment uploader des images sur ChatGPT ?

Il existe trois façons différentes de télécharger des photos sur l'application mobile de ChatGPT pour iOS et Android.

Vous pouvez tout d'abord sélectionner l'option de caméra située sur la gauche de la barre de message, et prendre une photo à l'aide de votre smartphone.

Avant de procéder à l'upload, délimitez les éléments sur lesquels vous souhaitez que le chatbot se focalise en traçant un cercle avec votre doigt.

Une alternative consiste à choisir les photos à uploader depuis le stockage de votre smartphone. De leur côté, les utilisateurs de la version PC peuvent sélectionner des photos sur leur disque dur.

Il n'y a pas encore d'option permettant l'upload de vidéos, mais vous pouvez soumettre de multiples images dans un seul et même prompt.

https://youtu.be/XBQk0-X05-w

Conseils et astuces

GPT-4 vision est loin d'être la première solution de vision par ordinateur disponible pour le grand public. Toutefois, son interface utilisateur très accessible et son association avec un puissant chatbot offrent une myriade de nouvelles possibilités.

Néanmoins, plusieurs bonnes pratiques sont à adopter pour utiliser ce puissant outil. Rappelez-vous tout d'abord de ne jamais uploader de photos personnelles ou sensibles sur ChatGPT.

Rappelons que plusieurs entreprises comme et interdisent formellement à leurs employés de communiquer des informations confidentielles au chatbot, par peur d'une fuite de données.

Par ailleurs, vous pouvez limiter la durée pendant laquelle OpenAI stocke vos données et vos interactions avec l'IA pour entraîner son chatbot. Pour ce faire, rendez-vous dans les paramètres, Data Controls (contrôles de données) et désactivez l'historique de conversations et l'entraînement (Chat History & Training).

En désactivant cette option, vous obligez OpenAI à supprimer vos informations après un mois seulement. Ce processus peut être effectué individuellement pour chaque navigateur que vous utilisez pour accéder à ChatGPT, aussi bien sur PC que sur mobile.

Afin d'obtenir les meilleurs résultats avec GPT-4 Vision, nous vous recommandons d'uploader des images nettes et bien éclairées. Ceci permettra au chatbot d'étiqueter les objets présents sur la photo de façon précise.

Quoi qu'il en soit, malgré l'impressionnante capacité de ChatGPT à chercher des informations pertinentes, ne lui accordez jamais entièrement votre confiance.

Il peut tout à fait se tromper lors de l'analyse d'images. Par exemple, un journaliste de Wired rapporte que l'IA a confondu ses vitamines avec des pilules pour les troubles de l'érection…

Si vous constatez que le robot commet une erreur d'identification, n'hésitez pas à le reprendre. Ceci lui permettra de se corriger de lui-même et de fournir la bonne réponse.

Quelles sont les limites de GPT-4 Vision ?

Afin d'éviter les dérives et les abus, OpenAI a placé des garde-fous pour limiter les capacités de GPT-4 Vision. Ainsi, l'IA est incapable d'identifier les humains. Les requêtes seront rejetées dans 98% des cas.

Si vous tentez de l'utiliser pour analyser la photo d'une personne, elle vous répondra qu'elle est « programmée pour prioriser la confidentialité et la sécurité des utilisateurs. Identifier de vraies personnes en se basant sur des images, même si elles sont célèbres, est restreint afin de maintenir ces priorités ».

gpt4 v refus

De même, si vous lui présentez des images pornographiques, ChatGPT se contentera de décrire les éléments « soft » et non explicites tels que les tatouages des acteurs.

Une autre barrière vise à empêcher l'IA de résoudre des CAPTCHA automatiquement ou de décrire des comportements illicites. Par conséquent, ne comptez pas sur ChatGPT pour identifier des drogues ou reconnaître les champignons comestibles. Ces demandes sont refusées dans 97,2% des cas.

Bien entendu, OpenAI a aussi tenté de réduire sa tendance à générer de fausses informations. Une mesure d'autant plus essentielle que les études prouvent que les gens sont plus enclins à se fier aux images qu'aux textes.

Dans le document décrivant GPT-4V, les chercheurs expliquent que « dans certains cas, l'IA pouvait échouer à identifier les informations dans les images. Elle pouvait rater du texte ou des caractères, négliger les symboles mathématiques, et était incapable de reconnaître les lieux ou les cartes de couleurs ».

erreur gpt 4 v

Tout comme pour les barrières mises en place autour de ChatGPT pour les prompts textuels, on peut craindre que des hackers parviennent à « jailbreaker » GPT-4 Vision pour contourner ces limites éthiques.

Les conséquences pourraient être catastrophiques, notamment pour la confidentialité. Toutes vos photos mises en ligne sur internet depuis votre enfance pourraient être retrouvées en un seul clic.

Il suffit qu'un malfaiteur vous prenne en photo dans la rue pour retrouver votre identité et tous vos clichés. Un tel outil risquerait d'être détourné à des fins de harcèlement…

Date de lancement de GPT-4 Vision

La nouvelle version de ChatGPT capable d'analyser les images sera déployée d'ici la fin de l'année 2023, mais on ignore encore à quelle date exactement.

Comme à l'accoutumée, les utilisateurs de la version payante ChatGPT Plus devraient être les premiers à en profiter.

Les meilleurs exemples d'utilisation de GPT-4 V

Les internautes ont déjà commencé à utiliser GPT-4 V, et leur imagination débordante a permis d'inventer des cas d'usage totalement géniaux. Voici les meilleurs exemples partagés sur les réseaux !

Un utilisateur de X a fait l'éloge de la capacité de l'IA à déchiffrer une colonne de règles de parking complexes. Idéal pour se garer si vous avez la flemme de comprendre vous-même ce règlement farfelu !

Un autre internaute a utilisé ChatGPT Vision pour lire et traduire des images de manuscrits écrits à la main. Vous n'aurez plus à plisser les yeux ou à tourner votre ordonnance dans tous les sens pour comprendre l'écriture de votre médecin…

Avec ce nouvel outil, vous pouvez même créer un site web complet à partir d'un diagramme écrit à la main. Plus besoin de coder, la preuve en images.

Si vous souhaitez progresser en peinture, mais que vos proches sont trop gentils pour être sincères, vous pouvez maintenant demander à GPT Vision de critiquer vos œuvres en toute objectivité.

Le professeur de Wharton, Ethan Mollick, a découvert que ChatGPT pouvait s'occuper du reporting d'assurance auto. Autant dire qu'une nouvelle vague de métiers risque d'être automatisée par cette IA…

À la manière d'un assistant virtuel pour les enseignants, ChatGPT peut les aider à planifier des leçons, des activités et des devoirs. Elle pourrait aussi aider les étudiants à se plonger dans les tableaux de scènes historiques ou les photos emblématiques. Pour McKay Wrigley, c'est le futur de l'éducation.

Malgré les barrières de sécurité ajoutées par OpenAI, un internaute a réussi à convaincre GPT-V d'essayer de résoudre un CAPTCHA. Il a échoué, mais cela prouve que ce cas d'usage est possible alors qu'il est censé être interdit.

Enfin, alors que vous avez peut-être passé toute votre enfance à chercher Où est Charlie, sachez que ChatGPT y arrive en quelques secondes à peine.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

1 commentaires

1 commentaire

  1. Oh super alors, et pour quand le trou de balle

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *