Aux dernières nouvelles, OpenAI a apporté des mises à jour pour développer une nouvelle version de ChatGPT. L’ancienne IA est donc révolutionnée et une nouvelle ère se crée.
Savez-vous que ChatGPT a désormais la capacité de raconter des histoires avec sa propre voix IA ? Il peut également reconnaître les objets sur des photos, et réagir aux enregistrements audio. Ces fonctionnalités marquent une révolution majeure dans le domaine de l’IA : l’ère des modèles multimodaux.
Au-delà d’une simple génération de texte
D’après Linxi « Jim » Fan, chercheur en IA chez Nvidia, le multimodal serait la prochaine étape de l’IA. On devrait alors vivre une époque où les IA génératives telles que ChatGPT peuvent traiter bien plus que du simple texte.
OpenAI, de son côté, déploie trois fonctionnalités multimodales distinctes pour la nouvelle version de ChatGPT. Les utilisateurs ont désormais la possibilité d’interagir avec le chatbot en utilisant des images ou des enregistrements vocaux. Ils peuvent également recevoir des réponses dans l’une des cinq voix produites par l’IA.
À titre d’information, la fonction d’entrée d’images est disponible sur toutes les plates-formes. La fonction vocale, par contre, est restreinte à l’application ChatGPT pour les systèmes Android et iOS.
Une démonstration impressionnante d’OpenAI met en scène cette nouvelle version de ChatGPT dans une situation pratique : l’ajustement d’un siège de vélo. Un cycliste perplexe commence par prendre une photo de son vélo et sollicite l’aide de ChatGPT pour abaisser la selle. Il poursuit en envoyant des photos du manuel d’utilisation du vélo et d’un ensemble d’outils.
ChatGPT répond en fournissant un texte explicatif détaillant le meilleur outil pour la tâche et comment l’utiliser de manière adéquate. Cette démonstration met en lumière la capacité remarquable de l’IA multimodale à résoudre des problèmes pratiques de la vie quotidienne.
Une nouvelle version de ChatGPT, des fonctionnalités moins … inédites
Les fonctionnalités multimodales de la nouvelle version de ChatGPT ne sont pas totalement inédites. En mars 2023, l’arrivée de GPT-4 a introduit une capacité de traitement des requêtes basées sur des images. Celle-ci a déjà été mise en application par certains partenaires d’OpenAI. À savoir Microsoft avec Bing Chat. Toutefois, pour exploiter ces fonctionnalités, un accès à l’API était requis, ce qui limitait généralement leur utilisation aux partenaires et aux développeurs.
Désormais, l’accès à ces fonctionnalités multimodales est ouvert à tous ceux qui sont prêts à souscrire à l’abonnement ChatGPT Plus. C’est-à-dire ceux qui paient de leur poche une somme de 20 $ par mois.
Ce mariage entre ces fonctionnalités et l’interface conviviale de ChatGPT représente un atout indéniable. Utiliser la saisie d’image est aussi simple que d’ouvrir l’application et de cliquer sur une icône pour prendre une photo.
L’hyper-personnalisation sera-t-il l’avenir de l’IA ?
La simplicité se présente comme la caractéristique phare de l’IA multimodale. Sans le nier, les modèles d’IA actuels sont impressionnants. Mais choisir le modèle approprié pour chaque tâche peut s’avérer chronophage. Sans parler du transfert de données entre ces modèles qui peut être fastidieux.
L’IA multimodale résout ces obstacles. Les utilisateurs peuvent désormais inviter l’agent IA avec divers types de médias. Mais aussi de passer en toute fluidité entre les images, le texte et les commandes vocales au sein d’une même conversation.
Selon Kyle Shannon, fondateur et PDG de Storyvine, « cela préfigure l’avenir de ces outils, où ils pourront nous fournir pratiquement tout ce que nous désirons instantanément. L’avenir de l’IA générative se dessine dans l’hyper-personnalisation, un changement qui touchera les travailleurs du savoir, les créatifs, et les utilisateurs finaux. »
- Partager l'article :