ChatGPT fait du plagiat de texte, c’est ce que montre une récente étude. Le débat sur les IA génératives et le respect des droits d’auteur est relancé.

Copyleaks a dévoilé la semaine dernière un rapport accablant sur l’IA conversationnelle d’OpenAI. ChatGPT génère du plagiat de contenu textuel à hauteur de 60 % d’après les données de la nouvelle recherche. Ce n’est pas pour rassurer les créateurs de contenu qui ne cessent de fustiger les acteurs de l’industrie de l’intelligence artificielle.

Est-ce que l’intelligence artificielle pratique le plagiat ?

Il y a un volume sans précédent de contenu généré par intelligence artificielle sur Internet. Un rapport d’Europol, datant de l’an dernier, fait savoir que d’ici 2026, l’IA se trouvera derrière environ 90 % de tout le contenu en ligne. Cette saturation soulève des préoccupations concernant la pollution des données et l’effondrement inévitable de tout un système.

Par ailleurs, la qualité et la fiabilité des textes générés par IA ne seront pas les seuls problèmes. Vient également la question de leur originalité.

Toutes ces préoccupations ont conduit Copyleaks à effectuer une analyse approfondie sur la populaire IA conversationnelle d’OpenAI. Le but de la recherche étant de déterminer dans quelle mesure le contenu généré par ChatGPT est exempt de plagiat. Précisons que cette recherche se base sur la version du chatbot avec GPT-3.5.

ChatGPT fait 100 % de plagiat en informatique !

Copyleaks se spécialise dans la détection de plagiat en utilisant un système d’intelligence artificielle. La plateforme est également un détecteur de contenu généré par IA. Elle attribue un score de similarité grâce à une méthode de notation propriétaire.

Le détecteur a ainsi testé ChatGPT basé sur GPT-3.5 sur un ensemble de 26 sujets. Il en a résulté près de 1 000 résultats de 400 mots de chaque. L’informatique (100 %) est la matière avec le score de similarité le plus élevé. La science physique (92 %) et la psychologie (88 %) complètent ensuite le podium.

D’autre part, le plagiat de ChatGPT se répartit comme suit : 45,7 % de textes identiques, 27,4 % de modifications mineures et 46,5 % de texte paraphrasé. Ainsi, Copyleaks note dans son rapport que « près de 60 % du contenu généré par l’IA contient une forme de plagiat ».

OpenAI bientôt condamné pour plagiat ?

Le plagiat ne se limite pas à la copie de phrases ou de paragraphes entiers. Rappelons que le New York Times a intenté un procès contre OpenAI, en reprochant à la startup de « plagier à grande échelle » son contenu.

Les créateurs de contenu, qu’ils soient auteurs ou graphistes, sont de plus en plus nombreux à critiquer les entreprises qui développent des IA génératives. Celles-ci utilisent du contenu protégé par des droits d’auteur pour entraîner leurs modèles de langage. Ces derniers finissent souvent par générer des copies exactes des œuvres protégées.

Cela peut constituer une violation de la propriété intellectuelle. Néanmoins, les ayants-droit ne parviennent pas encore à obtenir gain de cause auprès des tribunaux. D’autre part, l’affaire opposant le New York Times et OpenAI est en suspens depuis plusieurs mois. Il reste à savoir si ce rapport de Copyleaks pourra lui donner un nouveau tournant.

