2026-05-19T12:36:44+02:00

OpenAI siphonne les sites web pour entraîner GPT-5 : comment bloquer son bot ?

Bastien L. Publié le 8 août 2023 Mis à jour le 19 mai 2026 4 minutes de lecture IA générative, Intelligence artificielle, Sécurité

OpenAI lance GPTBot : un robot web crawler chargé de collecter des données sur tous les sites web d’internet. Le but est d’amasser des data pour entraîner GPT-5, la prochaine IA de l’entreprise américaine. Découvrez pourquoi il peut être préférable de lui barrer l’accès à votre site, et comment faire !

Afin d’améliorer ses modèles d’intelligence artificielle comme GPT-4 ou le futur GPT-5 qui pourrait être la première IA consciente, OpenAI a besoin de données. Beaucoup, beaucoup de données.

Pour les obtenir, la firme de Sam Altman vient de lancer un robot « web crawler » dénommé GPTBot. Son rôle ? Parcourir internet et les sites web afin de récupérer leurs data pour entraîner les IA.

Parfois appelé « web spider », un web crawler est un type de robot qui indexe le contenu des sites web. Les moteurs de recherche comme Google et Bing les utilisent pour choisir et classer automatiquement les sites apparaissant dans leurs résultats.

En l’occurrence, selon le billet publié sur le blog d’OpenAI, ce bot va permettre d’améliorer la précision et la sécurité des LLM et de leurs applications comme ChatGPT.

Comment fonctionne GPTBot ?

Le Web Crawler GPTBot est reconnaissable par son token d’agent utilisateur et sa ligne de code : « Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) ».

L’entreprise précise clairement que « les pages explorées par l’agent utilisateur GPTBot pourront potentiellement être utilisées pour améliorer les futurs modèles et sont filtrées pour supprimer les sources exigeant un accès payant, sont connues pour collecter des données personnelles, ou ont du texte enfreignant nos règles ».

Comment interdire votre site à GPTBot ?

Toutefois, les sites web peuvent choisir de barrer volontairement l’accès au web crawler pour interdire à GPTBot de récupérer leurs données.

Il suffit que l’opérateur se rende sur le fichier Robots.txt de son site et bloque l’adresse IP. Ce fichier texte indique aux web crawlers à quelles parties d’un site ils peuvent ou non accéder.

Libre à vous de sélectionner les pages que GPTBot ou les autres robots comme ceux de Google peuvent explorer. Il vous suffit d’ouvrir le fichier et d’y inclure le code : « User-agent: GPTBot

Disallow: / »

Si vous préférez lui laisser un accès partiel, ajoutez plutôt le code : « User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/ »

Sur son site web, OpenAI précise aussi les différentes adresses IP utilisées par GPTBot pour effectuer des calls sur les sites web. Ceci permet aux admins de sites de détecter plus facilement le crawler.

Faut-il laisser GPTBot explorer votre site ? Quels dangers ?

Le lancement de GPTBot suscite le débat sur le forum Hacker News. Même s’il peut fortement améliorer les modèles IA, certains estiment qu’il n’y a aucun intérêt à le laisser fouiller leur site.

Contrairement aux crawlers comme ceux de Google permettant d’augmenter le trafic, celui d’OpenAI n’apporte aucun avantage et pourrait utiliser du contenu sous copyright sans attribution. Rappelons que ChatGPT ne cite pas ses sources…

D’autres s’interrogent aussi sur la façon dont GPTBot exploite les images, vidéos, musiques et autres contenus multimédias sur les sites web. S’ils sont utilisés pour l’entraînement du modèle, cela pourrait constituer une violation des droits d’auteur.

Plusieurs experts craignent que les données générées par le crawler puissent finalement dégrader les modèles si du contenu déjà généré par l’IA est utilisé à nouveau pour l’entraînement.

Au contraire, une partie des experts estiment qu’OpenAI a le droit d’utiliser librement les données disponibles publiquement sur le web à la manière d’une personne apprenant à partir du contenu en ligne.

Cependant, beaucoup estiment que la firme devrait partager ses bénéfices si elle décide de monétiser les données du web pour son profit.

OpenAI et son rapport ambigu à la confidentialité

Auparavant, OpenAI a créé la polémique par ses pratiques de collecte de données, sa violation des droits d’auteur ou ses infractions au RGPD.

En juin 2023, de nombreux Américains ont porté plainte contre la firme en l’accusant d’avoir « volé » des données personnelles pour entraîner ChatGPT.

La CNIL du Japon a également averti l’entreprise quant à la collecte non autorisée de données sensibles, et l’Italie avait carrément tenté de bannir ChatGPT.

C’est après ces controverses que des fonctionnalités de confidentialité ont été ajoutées au chatbot. Il est notamment possible de désactiver l’historique de conversations et de contrôler quelles données personnelles sont accessibles.

Néanmoins, il reste impossible de supprimer du contenu du jeu de données d’entraînement initial de GPT 3.5 et 4 daté de 2021.

Les données web exploitées pour le futur GPT-5 ?

Le lancement de GPT-Bot survient peu après qu’OpenAI ait déposé la marque « GPT-5 », confirmant que le successeur du modèle GPT-4 est bien en préparation.

?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1686197034053926912%7Ctwgr%5E3bbc104fa8219666180972c23164157ee56d9a68%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fcointelegraph.com%2Fnews%2Fopen-ai-launch-gptbot-web-crawler-amid-gpt5-trademark

Le document déposé à l’USPTO suggère que cette nouvelle IA pourra convertir l’audio en texte et reconnaître les voix, ou les synthétiser artificiellement.

En plus de ces nouvelles fonctionnalités avancées, les données collectées par GPTBot pourraient permettre à GPT-5 de bénéficier d’un savoir bien plus étendu que les précédentes versions.

Nous ne sommes donc qu’au début de la révolution IA, et ce nouveau modèle attendu pour la fin 2023 pourrait même surpasser l’intelligence humaine. À vous de choisir si vous souhaitez ou non y contribuer en lui ouvrant l’accès à votre site web…