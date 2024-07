Une enquête récente suggère que des entreprises dans le domaine de la technologie d'Intelligence Artificielle, dont Apple, entraînent des modèles d'IA avec du contenu YouTube sans consentement.

D'après un nouveau rapport publié le 16 juillet, certains géants de la technologie ont formé des modèles d'IA à partir des vidéos YouTube sans l'approbation des créateurs. Apparemment, ces sociétés se servaient des fichiers de sous-titres téléchargés par un tiers via plus de 170 000 vidéos. Parmi les créateurs concernés, on peut citer MrBeast, John Oliver, le critique technique Marquees Brownlee (MKBHD), Jimmy Kimmel, Stephen Colbert et PewDiePie ainsi que de nombreux autres créateurs de contenu.

Une pratique courante des géants de la technologie ?

Meta, OpenAI et Google ont déjà reçu des critiques parce qu'elles étaient soupçonnées d'avoir retranscrit des vidéos YouTube pour former leurs modèles d'IA. Aujourd'hui, c'est Apple qui subit le même sort.

En effet, une enquête récente semble confirmer que cette maison mère de la marque iPhone suit les traces de ses confrères en formant des modèles LLM via des transcriptions du contenu vidéo sans l'autorisation des créateurs.

« Une enquête menée par Proof News a révélé que certaines des entreprises d'IA les plus riches au monde ont utilisé des contenus provenant de milliers de vidéos YouTube pour former des IA. Ces entreprises ont agi en dépit des règles de YouTube interdisant la collecte de contenus sur la plateforme sans autorisation. Notre enquête a révélé que les sous-titres de 173 536 vidéos YouTube, siphonnés depuis plus de 48 000 chaînes, ont été utilisés par des poids lourds de la Silicon Valley, dont Anthropic, Nvidia, Apple et Salesforce. »

Par ailleurs, les sources affirment que les entreprises n'ont pas utilisé directement les données de YouTube pour former leur modèle d'IA. Elles ont utilisé « the Pile », une collection d'association à but non lucratif EleutherAI. Celle-ci a été développée pour proposer un ensemble de données indispensables aux particuliers ou aux entreprises qui n'ont pas les budgets nécessaires pour rivaliser avec les Big Tech.

« The Pile » est constitué d'articles Wikipédia, de livres, etc. On y trouve aussi les sous-titres YouTube réunis par l'API, des extraits de 173 536 vidéos sur environ 48 000 chaînes.

Utiliser les contenus Youtube pour former des modèles d'IA : une violation des droits d'auteur

L'enquête souligne que ces géants de l'IA se servaient du contenu pour leur processus de formation même si ce genre de technique d'extraction de matériel est tout à fait contraire aux règles de YouTube en matière d'applications indépendantes de leurs vidéos. C'est aussi le cas pour l'accès robotisé sans consentement.

Certes, il s'agit d'une pratique assez ordinaire pour ces géants de la technologie, mais il s'agit d'une violation des droits d'auteur des créateurs de contenu.

D'ailleurs, cette pratique adoptée récemment par Apple suscite de nombreuses inquiétudes. Ces géants se retrouvent d'ailleurs actuellement au centre d'une controverse pour avoir violé les droits d'auteur des créateurs bien qu'elles n'ont pas effectué l'acte de transcription.

De tels événements soulèvent d'ailleurs des questions sur l'approbation et les pratiques éthiques de l'IA, notamment que les responsabilités pourraient être nombreuses si elles ne sont pas traitées avec une certaine précaution.

Certains créateurs ont donné leur avis face à cette enquête lors d'une interview avec ProofNews. La majorité des créateurs ont été surpris de cette utilisation de leur contenu. Certains n'ont même pas hésité à critiquer EleutherAI et les entreprises qui ont utilisé les données dans leurs déclarations.

À titre d'exemple, David Pakman a déclaré : « Personne n'est venu me voir pour me dire : « Nous aimerions utiliser cela »… C'est mon gagne-pain, et j'investis du temps, des ressources, de l'argent et du personnel dans la création de ce contenu. Le travail ne manque vraiment pas. »

De son côté, Julia Walsh, PDG de la société de production Complexly, responsable de SciShow et d'autres contenus éducatifs de Hank et John Green affirme : « Nous sommes frustrés d'apprendre que notre contenu éducatif soigneusement produit a été utilisé de cette manière sans notre consentement. »

Par ailleurs, le fondateur d'EleutherAI, Sid Black a déclaré qu'il avait utilisé un script pour télécharger les sous-titres via l'API de YouTube, tout comme le fait un navigateur Web. »

