Coup dur pour OpenAI qui essuie une nouvelle accusation de voler du contenu YouTube pour entraîner GPT-4. C’est inacceptable pour la plateforme vidéo de Google.
Le domaine de l’intelligence artificielle fait face à un sérieux problème, qui est la pénurie de données qualitatives pour entraîner les grands modèles de langage (LLM). Dans un récent papier sur la façon des différents acteurs du milieu à gérer cette pénurie, le New York Times accuse OpenAI d’avoir utilisé des vidéos de YouTube pour l’entraînement de GPT-4.
Les créations humaines, comme les vidéos YouTube, sont des données qualitatives pour l’entraînement des modèles d’intelligence artificielle. Elles se raréfient.
Il faut savoir que des droits d’auteur protègent souvent ces œuvres. De ce fait, les entreprises comme OpenAI ne peuvent pas les collecter librement pour développer leurs LLM.
Mise en garde de YouTube
Le New York Times ouvre son sujet sur les difficultés d’OpenAI à trouver suffisamment de données qualitatives pour développer ses modèles d’IA. Pour contourner le problème, elle aurait transcrit plus d’un million d’heures de vidéos YouTube pour entraîner GPT-4.
Le créateur de ChatGPT savait que cette pratique était juridiquement contestable. Néanmoins, il considérait que cela relevait d’une utilisation équitable, souligne le journal.
Ce n’est pas le sentiment de Neal Mohan dans une interview accordée à Bloomberg la semaine dernière. Le PDG de YouTube considère que l’utilisation de contenu de sa plateforme pour former des LLM est une « claire violation » de son règlement.
Une présumée violation que YouTube ne peut pas confirmer
Ce récent papier du New York Times ne va pas apaiser les tensions entre la plateforme de vidéos et OpenAI. En effet, il est également reproché à la start-up californienne d’avoir exploité du contenu de YouTube pour développer Sora.
Rappelons que Sora est le prochain modèle de texte-à-vidéo révolutionnaire de la compagnie. Interrogé sur ce sujet, Mohan n’a pas confirmé l’utilisation des vidéos de sa plateforme.
Concernant les allégations du New York Times, un porte-parole de Google évoque avoir « vu des rapports non confirmés » sur l’activité d’OpenAI. Il rappelle que sa compagnie prend des « mesures techniques et juridiques » pour empêcher ce type de violation.
D’autre part, il faut savoir que Google effectue également des transcriptions des vidéos de sa plateforme. Néanmoins, cela se fait avec l’autorisation des créateurs.
Des vidéos YouTube pour entraîner GPT-4, vraiment ?
GPT-4 est actuellement le grand modèle de langage le plus performant d’OpenAI. Celui-ci fait tourner la populaire intelligence artificielle conversationnelle, ChatGPT.
Il faut rappeler que le New York Times reproche à la start-up californienne d’avoir utilisé ses articles de presse pour entraîner GPT-4. L’affaire est allée jusqu’au tribunal.
OpenAI pourrait ne pas avoir violé les règlements de YouTube pour entraîner GPT-4. Il ne faut pas écarter la possibilité que ces allégations du journal new-yorkais soient une vendetta.
Quoi qu’il en soit, cette nouvelle affaire vient exacerber les tensions entre Google et la start-up californienne. Un conflit direct avec le mastodonte américain du numérique pourrait la fragiliser. Affaire à suivre…
- Partager l'article :