NExT-GPT : découvrez le ChatGPT du futur qui combine images, audio et texte

Bastien L. 27 septembre 2023 3 minutes de lecture IA générative, Intelligence artificielle

NExT-GPT est une intelligence artificielle générative comme ChatGPT, qui se distingue par sa capacité à générer aussi bien du texte que des images, de l'audio ou des vidéos. Découvrez tout ce qu'il faut savoir sur cet outil open-source !

À l'heure actuelle, le paysage de l'intelligence artificielle est largement dominé par OpenAI et les géants tels que Google, Microsoft et Meta.

Toutefois, un large modèle de langage (LLM) multimodal totalement open source pourrait avoir suffisamment d'arguments pour jouer dans la cour des grands : NExT-GPT.

Même si ChatGPT a fait l'effet d'une révolution par sa capacité à générer du texte à la manière d'un humain, les utilisateurs réclament désormais des IA toujours plus puissantes… mais surtout multimodales.

NExT-GPT : la première véritable IA multimodale

Experience the Future of AI.

A new MutliMODAL AI system – NExt-GPT

Take a look:

——

Why did I choose the NExtGPT Model?

Because of its unique strategy for truly multimodal interactions.

And it easily integrates numerous modalities for effective and flexible results.… pic.twitter.com/KxgITlGdRn
— Haider. (@slow_developer) September 26, 2023

C'est précisément ce que propose NExT-GPT, fruit d'une collaboration entre l'Université de Singapour et la Tsinghua University. Cette IA est capable de traiter et de traiter et de générer des combinaisons de texte, image, audio et vidéo.

Ceci permet des interactions plus naturelles qu'avec uniquement du texte comme le propose ChatGPT. Sentant le vent tourner, OpenAI vient d'ailleurs de donner une voix à ChatGPT et de lui permettre de traiter les images. De même, le générateur d'images DALL-E 3 sera bientôt incorporé à l'outil !

Revenons à nos moutons : NExT-GPT a été créé comme un système « any-to-any » (tout vers tout). Cela signifie qu'il peut accepter des entrées de n'importe quelle modalité et délivrer des réponses sous la forme souhaitée.

Le potentiel d'une telle IA est tout simplement colossal. De plus, en tant que modèle open-source, il peut être modifié par les utilisateurs pour répondre à leurs besoins spécifiques !

Ceci pourrait mener à des améliorations massives, à la manière dont Stable Diffusion a évolué par rapport à sa version initiale. Nous assistons peut-être à la naissance du nouveau roi de l'IA !

Comment ça marche ?

Comme l'explique le papier de recherche, le système de NExT-GPT repose sur des modules séparés pour encoder les inputs tels que les images et l'audio en représentations textuelles que le modèle de langage peut traiter.

Les chercheurs ont créé une technique appelée « modality-switching instruction tuning » (réglage des instructions de commutation de modalité) permettant d'améliorer les capacités de raisonnement cross-modal : traiter différents types d'inputs comme une structure cohérente unique.

Ce réglage apprend au modèle à alterner entre les modalités pendant les conversations. Son fonctionnement est donc parfaitement fluide.

Afin de prendre en charge les inputs, NExT-GPU utilise des tokens uniques différents pour les images, l'audio et la vidéo. Chaque type d'input est converti pour que le modèle de langage puisse le comprendre.

Le modèle de langage peut ensuite produire des réponses sous forme de texte, ou des tokens de signal spécial pour activer la génération dans d'autres modalités.

Un token dans la réponse indique au décodeur vidéo de produire un résultat correspondant sous forme de vidéo. L'utilisation de tokens sur mesure pour chaque modalité d'input et de résultat par le système permet une conversation flexible d'un format à l'autre.

Le modèle de langage produit ensuite des tokens spéciaux pour signaler quand des résultats non textuels tels que des images devraient être générés. Différents décodeurs créent ensuite les résultats pour chaque modalité.

Le décodeur audio est AudioLDM, celui pour les images est Stable Diffusion, et celui pour les vidéos est Zeroscope. En outre, le modèle de langage de base est Vicuna et ImageBind est exploité pour encoder les inputs.

En bref, NExT-GPT est un modèle combinant la puissance de différents IA pour former une IA tout-en-un surpuissante.

Cerise sur le gâteau : cette flexibilité de conversion est obtenue en utilisant seulement 1% des paramètres. Le reste sont des modules pré-entraînés gelés, et les chercheurs saluent unanimement ce design très efficace.

Si vous souhaitez tester NExT-GPT, vous pouvez vous rendre sur le site de démonstration en suivant ce lien. Notons toutefois qu'il n'est disponible que par intermittence.

En attendant qu'OpenAI, Google, Apple, et les autres GAFAM lancent leurs propres IA multimodales comme GPT-5, NExT-GPT est une alternative open-source qui vous offre un aperçu de la prochaine étape de l'intelligence artificielle…

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

NExT-GPT : découvrez le ChatGPT du futur qui combine images, audio et texte

NExT-GPT : la première véritable IA multimodale

Comment ça marche ?

Sur le même sujet

Newsletter

Laisser un commentaire

NExT-GPT : découvrez le ChatGPT du futur qui combine images, audio et texte

NExT-GPT : la première véritable IA multimodale

Comment ça marche ?

Sur le même sujet

OpenAI dévoile son moteur de recherche IA, c’est un fiasco dès le début

Création de robots vivants : les scientifiques tirent l’alarme sur ce danger

Mistral Large 2 : la réponse française, moins de 24h après Meta Llama 3.1 !

Newsletter

Laisser un commentaire