gpt-4o openai

OpenAI dévoile GPT-4o : ChatGPT gagne une voix, des yeux et des émotions

vient de dévoiler -4o ! Cette nouvelle IA peut traiter du texte, mais aussi des images et de l'audio. Elle est capable de discuter à l'oral avec vous, de détecter vos émotions, d'analyser vos images ou ce que vous filmez avec votre smartphone, et bien plus encore ! Découvrez tout ce qu'il faut savoir sur ce nouveau modèle qui vise à humaniser l'intelligence artificielle…

https://youtu.be/nzBbnbykNdo

Près d'un an et demi après le lancement de ChatGPT, le monde de la tech tout entier attendait impatiemment le keynote OpenAI ce 13 mai 2024 au soir.

Après l'impressionnant GPT-4 Turbo, le générateur de vidéos Sora ou encore l'outil Voice Engine permettant de cloner des voix, qu'allait encore présenter la startup la plus brûlante de l'industrie de l'IA ?

Le CEO avait prévenu qu'il ne s'agirait ni de GPT-5, ni d'un moteur de recherche pour remplacer , mais personne n'était préparé à l'incroyable surprise dévoilée hier : GPT-4o.

GPT-4o : un avant-goût du futur de l'interaction Homme-Machine

Ce nouveau modèle GPT-4 s'étoffe de la lettre « o » en référence au mot « omni » : il est capable de traiter du texte, mais aussi de l'audio, des images et de la vidéo.

Comme l'explique la CTO Mira Murati, GPT-4o a le même niveau d'intelligence que GPT-4, mais améliore fortement ses capacités multimodales.

Elle affirme qu'il est capable de « raisonner sur la voix, le texte et la vision » et ajoute que ceci est « incroyablement important, car nous regardons le futur de l'interaction entre nous et les machines ».

Pour rappel, GPT-4 Turbo, la version la plus avancée de GPT, a été entraînée sur une combinaison de texte et d'images et peut analyser des images pour extraire du texte ou en décrire le contenu. Toutefois, GPT-4o va plus loin en ajoutant le discours audio.

Vous pouvez maintenant discuter oralement avec

Il était déjà possible d'utiliser le mode vocal de ChatGPT pour retranscrire ses réponses écrites à l'oral à l'aide d'un modèle text-to-speech.

Cependant, désormais, GPT-4o vous permet aussi de communiquer directement à l'oral avec l'IA. Comme Jarvis dans Iron Man, elle peut vous servir d'assistant disponible à tout moment.

Il est par exemple possible de poser une question à ChatGPT et de l'interrompre pendant qu'il répond. Le chatbot réagit en temps réel, et peut même détecter les nuances dans votre voix.

Dès lors, il peut générer des voix dans différents styles émotionnels pour correspondre à votre humeur du moment. Cette IA peut même répondre en chantant !

En guise d'exemple, le chercheur Mark Chen a demandé à gpt-4o de lire un conte et de prendre une voix plus dramatique. Puis, Murati lui a demandé de prendre une voix plus convaincante. Le résultat est bluffant.

Notons aussi que cette version maîtrise davantage de langues que les précédentes. Ses performances ont été améliorées dans environ 50 langues.

Une IA capable d'analyser ce que vous filmez avec votre smartphone

Les capacités de vision de ChatGPT sont aussi fortement améliorées par GPT-4o. À partir d'une photo ou d'une capture d'écran, le chatbot peut répondre à n'importe quelles questions.

Vous pouvez par exemple lui demander d'analyser du code informatique, ou d'identifier la marque du t-shirt d'une personne.

En guise de démonstration, le chercheur Barett Zoph a filmé une équation avec son téléphone, et a demandé à GPT-4o de le guider pour la résoudre à la façon d'un enseignant.

Si vous êtes en vacances à l'étranger, GPT-4o peut lire le menu et le traduire dans votre langue. À l'avenir, Murati affirme que ces capacités vont encore évoluer. Bientôt, ChatGPT pourra regarder un match sportif et vous expliquer les règles.

Un focus sur la simplicité d'usage plutôt que la puissance

La CTO explique que « nous savons que ces modèles deviennent de plus en plus complexes, mais nous voulons que l'expérience d'interaction devienne plus naturelle, simple, et que vous ne soyez pas focalisés sur l'interface utilisateur, mais sur la collaboration avec ChatGPT ».

Comme elle l'explique, « pendant les deux dernières années, nous avons été très concentrés sur l'amélioration de l'intelligence de ces modèles… mais c'est la première fois que nous faisons vraiment un grand pas en avant concernant la simplicité d'utilisation ».

Ainsi, plutôt qu'une énième surenchère de puissance dans cette course à laquelle nous assistons depuis la fin 2022, OpenAI a préféré faire une petite pause et prendre le temps de rendre son IA plus agréable, plus intuitive.

Néanmoins, les performances ne sont pas en reste. Sur l'API d'OpenAI et le Azure OpenAI Service de , GPT-4o est deux fois plus rapide que GPT-4 Turbo… et deux fois moins cher !

Nouveau site, appli Mac et Windows, GPT-Store gratuit… les autres annonces d'OpenAI

En parallèle, OpenAI annonce une refonte de l'interface ChatGPT sur le web avec un écran d'accueil et une disposition des messages plus conversationnels.

La firme lance aussi une version desktop pour macOS, qui va permettre de poser des questions via un raccourci clavier ou de prendre des captures d'écran des conversations.

Les utilisateurs ChatGPT Plus ont accès dès à présent à cette application, tandis qu'une version Windows sera lancée plus tard dans l'année.

En outre, le GPT-Store permettant de vendre et d'acheter des chatbots spécialisés basés sur GPT, est désormais disponible pour tous les utilisateurs gratuits de ChatGPT.

D'autres fonctionnalités réservées jusqu'à présent aux utilisateurs payants deviennent également gratuites, comme la mémoire, la recherche web, ou l'upload de photos et d'autres fichiers…

Prix et disponibilité : GPT-4o, une IA gratuite pour tous… ou presque

Cerise sur le gâteau : GPT-4o est disponible dès à présent sur ChatGPT pour les utilisateurs payants de ChatGPT Plus et Team… mais aussi pour les utilisateurs gratuits !

Néanmoins, les utilisateurs premium bénéficient d'une limite de message 5 fois plus élevée. Une fois la limite atteinte, ChatGPT repasse automatiquement sur GPT-3.5 pour la version gratuite.

Le nouveau modèle sera cependant déployé de façon itérative sur tous les produits destinés aux développeurs ou au grand public au fil des prochaines semaines. Ne vous étonnez donc pas si vous n'y avez pas accès immédiatement.

Par ailleurs, pour le moment, la voix n'est pas disponible pour tous les utilisateurs de l'API GPT-4o. Pour cause, OpenAI craint les risques d'usage détourné.

Ces nouvelles capacités audio seront dans un premier temps déployées auprès d'un petit groupe de partenaires de confiance dans les semaines à venir.

Avec ce lancement en fanfare de GPT-4o, on devine facilement l'intention d'OpenAI. La firme souhaite très probablement permettre à ChatGPT de voir et d'entendre le monde réel, afin de collecter de nombreuses données.

Le but ? Entraîner GPT-5 ou un autre futur modèle, pour continuer encore et toujours d'avancer vers son objectif ultime : la création d'une AGI ou IA Générale aussi intelligente et consciente que l'être humain !

Et vous, que pensez-vous de GPT-4o ? S'agit-il d'une vraie révolution par rapport aux précédentes versions ? Quels sont les cas d'usage qui vous intéressent le plus ? Partagez votre avis en commentaire !

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *