intelligence artificielle japonais ancien

L’intelligence artificielle déchiffre des milliards de textes en japonais ancien

Bastien L. 15 juillet 2019 2 minutes de lecture Intelligence artificielle

Des chercheurs ont créé une intelligence artificielle capable de traduire des textes écrits en Kuzushiji, une écriture japonaise ancienne. Cette IA va permettre de traduire des milliards de textes de manière automatisée et de révéler leurs secrets au grand jour…

Depuis de nombreuses années, les chercheurs peinent à déchiffrer les milliards de textes antiques écrits en Kuzushiji. Pour cause, cette ancienne écriture japonaise utilisée du VIIIème au XXème siècle a pratiquement disparu des mémoires. En 2019, on estime que seul 0,01% de la population mondiale est capable de la lire.

Par conséquent, des centaines d’années seraient nécessaires pour traduire ces textes manuellement. Seule une infime fraction du contenu préservé a été converti en caractères Kanji modernes.

Comme l’explique Tarin Clanuwat, chercheuse au ROIS-DS Centre for Open Data in the Humanities du Japon, » tout ce que l’on sait de l’histoire et de la culture japonaise grâce à la littérature a été transcrit manuellement. Les gens se réfèrent à ce que d’autres ont fait avant eux, et c’est ainsi qu’est effectuée la recherche. De fait, on ignore la plupart du temps si les transcriptions ont réellement été effectuées correctement.

L’intelligence artificielle peut traduire une page de texte en 2 secondes avec une précision de 85%

C’est la raison pour laquelle Tarin Clanuwat travaille sur un système de reconnaissance optique de caractères basé sur le Deep Learning. Ce système pourrait permettre de transcrire les caractères Kuzushiji en caractères Kanji de façon automatisée. En créant un moteur de recherche capable de chercher un mot spécifique, il sera possible de vérifier plus rapidement le contenu des autres textes.

Afin de développer ce système, les chercheurs ont utilisé un ensemble de données étiquetées tiré de livres datés du 17ème au 19ème siècle et conservés par le National Institute of Japanese Literature. Au départ, la première itération du modèle de Machine Learning pouvait détecter uniquement un caractère.

Ses capacités ont progressivement augmenté, et le système peut désormais reconnaître 4000 caractères Kuzushiji. Ainsi, l’algorithme est en mesure de déchiffrer une page de texte en seulement deux secondes avec une précision moyenne de 85%. Malheureusement, compte tenu de l’immense variété de caractères de la langue japonaise, il est actuellement impossible de trouver suffisamment d’échantillons pour obtenir une précision de 100%. Cependant, la collaboration entre humains et machines pourrait permettre d’atteindre la précision maximale…

https://www.youtube.com/watch?v=BOqUggg2_LA