Reddit poursuit Perplexity et trois entreprises pour avoir illégalement scrappé massif ses données afin d’entraîner un moteur d’IA.
Le 22 octobre 2025, Reddit, Inc. a déposé une plainte fédérale à New York contre Perplexity AI, accompagnée de trois sociétés partenaires. Ces dernières sont Oxylabs en Lituanie, la texane SerpApi et la russe AWMProxy. Selon Reddit, ces sociétés auraient contourné ses barrières techniques afin d’extraire des milliards de publications issues des communautés du site.
Des outils de contournement sophistiqués
Dans la plainte, Reddit évoque une “circonvention à l’échelle industrielle” de ses protections numériques. Le réseau social compare ces pratiques à un braquage organisé.
Incapables de pénétrer directement dans la “banque” qui est les serveurs de Reddit, les accusés auraient “attaqué le camion blindé”. Autrement dit les pages de résultats de Google contenant du contenu Reddit.
Les trois sociétés de scraping visées possèdent un rôle central. SerpApi vend des outils permettant de contourner les contrôles d’accès à grande échelle.
Oxylabs, acteur majeur du proxying en Europe, fournit des infrastructures pour masquer les adresses IP et brouiller les origines des requêtes. AWMProxy, autrefois lié à un réseau de bots russes, aurait repris ses activités en Californie pour offrir des services de dissimulation numérique.
D’après Reddit, ces acteurs auraient utilisé des techniques avancées. À savoir, usurpation d’identité d’utilisateurs humains, masquage de localisation, contournement des pare-feux. Et l’apothéose, accès automatisé à près de trois milliards de pages Google contenant du contenu Reddit, en seulement deux semaines de juillet 2025.
Une escalade après un avertissement
Au centre du scandale, Perplexity AI, jeune pousse californienne et “moteur de réponse” concurrent direct de Google et ChatGPT. Son produit phare offre des synthèses de connaissances issues du web, appuyées sur l’intelligence artificielle générative.
Mais selon Reddit, Perplexity aurait alimenté son IA avec du contenu obtenu illégalement via ces prestataires de scraping. L’entreprise aurait refusé de signer un accord de licence, contrairement à Google ou OpenAI, qui paient pour accéder aux données Reddit.
Reddit affirme avoir piégé Perplexity grâce à des “billes marquées”, des données invisibles permettant de tracer les flux d’informations. Cette méthode aurait confirmé que le moteur de Perplexity intégrait du contenu Reddit collecté sans autorisation.
Reddit avait envoyé une mise en demeure à Perplexity en 2024. Le document précisait l’interdiction de toute exploitation commerciale de son contenu sans contrat formel.
Pourtant, Reddit affirme que, loin d’obtempérer, Perplexity aurait multiplié par quarante le nombre de citations de Reddit dans ses résultats après réception de la lettre.
Reddit poursuit Perplexity pour défendre un Internet ouvert et encadré
Pour Reddit, l’enjeu dépasse la simple question du droit d’auteur. L’entreprise défend une vision d’internet ouvert mais respectueux de ses communautés. Ses “subreddits” — plus de 100 000 forums thématiques — abritent l’un des plus vastes corpus de discussions humaines en ligne.
Ces échanges, qualifiés de “manne céleste” pour les concepteurs d’IA, constituent une matière première précieuse pour affiner la pertinence des modèles linguistiques. Mais Reddit insiste que l’accès à cette ressource doit obéir à des règles.
Le réseau social revendique des “mesures technologiques de contrôle” et exige des accords commerciaux transparents. La société souligne avoir déjà conclu des partenariats légaux avec plusieurs géants du secteur.
Face à cela, Perplexity rejette les accusations et promet de se défendre vigoureusement en justice. L’entreprise déclare continuer à fournir des réponses « fondées sur des faits » grâce à une IA responsable et ouverte.
Dans sa plainte, Reddit réclame des dommages financiers non spécifiés et une injonction immédiate interdisant à Perplexity et ses partenaires de poursuivre toute utilisation de ses données. Le réseau social invoque notamment la loi américaine sur le droit d’auteur numérique (DMCA), qui punit la neutralisation des protections techniques d’accès.
Reddit espère, par cette action, marquer un précédent juridique capable de freiner l’extraction illégale de données qui alimente aujourd’hui le développement effréné des modèles d’IA.
- Partager l'article :