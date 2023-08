OpenAI lance GPTBot : un robot web crawler chargé de collecter des données sur tous les sites web d’internet. Le but est d’amasser des data pour entraîner GPT-5, la prochaine IA de l’entreprise américaine. Découvrez pourquoi il peut être préférable de lui barrer l’accès à votre site, et comment faire !

Afin d’améliorer ses modèles d’intelligence artificielle comme GPT-4 ou le futur GPT-5 qui pourrait être la première IA consciente, OpenAI a besoin de données. Beaucoup, beaucoup de données.

Pour les obtenir, la firme de Sam Altman vient de lancer un robot « web crawler » dénommé GPTBot. Son rôle ? Parcourir internet et les sites web afin de récupérer leurs data pour entraîner les IA.

Parfois appelé « web spider », un web crawler est un type de robot qui indexe le contenu des sites web. Les moteurs de recherche comme Google et Bing les utilisent pour choisir et classer automatiquement les sites apparaissant dans leurs résultats.

En l’occurrence, selon le billet publié sur le blog d’OpenAI, ce bot va permettre d’améliorer la précision et la sécurité des LLM et de leurs applications comme ChatGPT.

Le Web Crawler GPTBot est reconnaissable par son token d’agent utilisateur et sa ligne de code : « Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) ».

L’entreprise précise clairement que « les pages explorées par l’agent utilisateur GPTBot pourront potentiellement être utilisées pour améliorer les futurs modèles et sont filtrées pour supprimer les sources exigeant un accès payant, sont connues pour collecter des données personnelles, ou ont du texte enfreignant nos règles ».

Breaking 🚨



OpenAI just launched GPTBot, a web crawler designed to automatically scrape data from the entire internet.



This data will be used to train future AI models like GPT-4 and GPT-5!



GPTBot ensures that sources violating privacy and those behind paywalls are excluded. pic.twitter.com/oR3kY4buaU