Le Japon crée son propre ChatGPT : Voici pourquoi la France doit faire pareil

Le Japon veut son propre ChatGPT, une intelligence artificielle basée sur la langue japonaise. Cette initiative devrait inspirer la France à créer sa propre version.

L’engouement pour l’intelligence artificielle ne ralentit pas. Les capacités d’agents conversationnels comme ChatGPT continuent d’impressionner. Ces IA génératives ont toutefois un problème, l’anglais est la langue qu’elles maîtrisent le mieux. C’est pour se soustraire de cette partialité que le Japon veut son propre ChatGPT.

Le parti pris de ChatGPT pour l’anglais

Rappelons que le fonctionnement des chatbots comme ChatGPT repose sur des grands modèles de langage. Ces derniers se trouvent ainsi à la base de la raison artificielle. Ce sont des réseaux neuronaux profonds entraînés sur un volume considérable de données. Sans cela, les chatbots ne peuvent tenir une conversation.

À noter que l’abréviation LLM sert souvent à désigner les grands modèles de langage. Le terme vient de l’anglais large language model.

Les LLM utilisent généralement des données de sources publiques. Ces dernières leur permettent d’apprendre des modèles de discours et de prose. Les LLM peuvent ensuite répondre de manière assez naturelle.

Depuis sa création, ChatGPT s’est appuyé sur 5 versions de son LLM de base. Le plus récent est GPT-4, disponible depuis mars dernier. Pour entraîner son IA générative, OpenAI s’est principalement basé sur des sources en anglais. De ce fait, l’anglais est la langue que l’intelligence artificielle comprend le mieux.

L’inquiétude japonaise quant au parti pris anglais

Les Japonais craignent ainsi que les IA formées sur des données d’autres langues ne soient pas en mesure de saisir les complexités de la langue et de la culture japonaises. La structure des phrases japonaises ne ressemble pas à celle de l’anglais.

Précisons que l’anglais ne possède que 26 lettres, contre 2 ensembles de base de 48 caractères, plus 2 136 kanji courants pour l’alphabet nippon. D’autre part, la plupart des kanji ont 2 sons ou plus. Il existe environ 50 000 autres kanji rarement utilisés.

ChatGPT doit d’abord traduire la requête japonaise en anglais. Le chatbot cherche ensuite la réponse. Il refait une traduction, mais en japonais cette fois-ci. Compte tenu de la complexité de la langue, ce n’est pas surprenant si l’IA générative d’OpenAI éprouve des difficultés avec le japonais.

« ChatGPT génère parfois des caractères très rares que la plupart des Japonais n’ont jamais vus auparavant, et il en résulte des mots bizarres », explique Keisuke Sakaguchi, un chercheur de l’université du Tōhoku à Sendai.

Comment le Japon aura son propre ChatGPT basé sur le japonais ?

Le gouvernement et de grandes entreprises technologiques – notamment NEC, Fujitsu et SoftBank – dépensent des centaines de millions de dollars pour avoir des LLM basés sur le japonais.

Ce projet d’envergure implique l’utilisation du supercalculateur nippon Fugaku. Rappelons qu’il s’agit de l’un des ordinateurs les plus rapides au monde. Les universités de technologie de Tokyo, du Tohoku, de Fujitsu et le centre de recherche gouvernemental RIKEN participent également au projet.

D’autre part, le problème de compréhension ne concerne pas que les langues complexes comme le japonais. ChatGPT peut également avoir des difficultés à traiter les requêtes en français. D’où l’intérêt pour la France de lancer un projet similaire.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *