google données nourrir ia

Google va prendre toutes vos données pour nourrir sa prochaine IA

a mis à jour sa politique de confidentialité. Désormais, la firme s'autorise le « scraping » de toutes les données disponibles sur le web pour nourrir sa prochaine IA. Un danger pour la vie privée des internautes ?

Suite au succès phénoménal de , les GAFAM sont désormais lancés dans une guerre de l'IA. Et dans ce conflit, les munitions sont vos données personnelles.

Pour rappel, Microsoft a noué un partenariat avec OpenAI lui permettant d'incorporer ChatGPT à ses produits dont la suite Office et le moteur de recherche Bing.

Menacé pour la première fois dans son hégémonie, le géant du web Google s'est donc empressé de lancer son propre rival de ChatGPT : Google Bard.

Toutefois, ce chatbot basé sur le modèle de langage PaLM 2 de Google se révèle nettement moins performant que ChatGPT basé sur GPT-4 d'OpenAI.

Au pied du mur, la maison-mère de Google, Alphabet, a donc décidé de rassembler toutes ses ressources d'intelligence artificielle au sein d'une seule division : Google DeepMind, composée des équipes et Google Brain.

Fort de cette fusion annoncée le 20 avril 2023, le CEO de DeepMind, Demis Hassabis, est convaincu que sa prochaine IA dénommée Gemini va surpasser ChatGPT. C'est ce qu'il a annoncé début juillet 2023, même si le nouveau modèle ne sera lancé qu'en fin d'année.

Mais quel est vraiment le prix à payer pour atteindre une telle puissance ? Et jusqu'où Google est-il prêt à aller pour s'imposer en leader de l'IA ?

Google s'autorise à aspirer toutes les données sur le web

Au cours du premier weekend de juillet, la firme américaine vient de mettre à jour sa politique de confidentialité. Désormais, elle s'autorise explicitement à collecter tout ce que les internautes publient sur le web dans le but d'améliorer son intelligence artificielle.

Chaque mot partagé sur internet appartient dorénavant à l'entreprise, et sera utilisé pour nourrir son prochain chatbot.

Selon les nouvelles conditions d'utilisation, « Google utilise les informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies bénéficiant à nos utilisateurs et au public ».

En guise d'exemple, la firme précise qu'elle utilise « les informations publiquement disponibles pour aider à entraîner les modèles IA de Google et construire des produits et fonctionnalités comme Google Translate, et AI ».

À travers cette mise à jour, Google s'octroie donc de nouvelles possibilités d'utilisation de vos écrits sur le web pour ses outils IA.

Auparavant, les conditions d'utilisation évoquaient l'utilisation des données pour les « modèles de langage » plutôt que pour les « modèles IA ». Les mentions de Google Translate, Bard et Cloud AI ont aussi été ajoutées.

Le début d'une nouvelle ère pour internet

Une telle clause est inhabituelle pour une politique de confidentialité, qui décrit habituellement les façons dont une entreprise utilise les informations que vous publiez en ligne sur ses propres services internes.

En l'occurrence, Google se réserve au contraire le droit de collecter et d'exploiter toutes données publiées sur le web public. Aucune limite claire n'est fixée.

Ainsi, ce changement soulève de nouvelles questions en termes de confidentialité. Au-delà des contenus que vous publiez aujourd'hui, les chatbots IA peuvent se nourrir de votre vieux Skyblog ou des avis que vous avez laissés il y a plusieurs années.

De plus, ces outils utilisent le contenu ingéré pour produire de nouveau contenu d'une façon totalement imprévisible et indétectable. Leur fonctionnement est en « boîte noire ».

En outre, se pose la question de la légalité de ces pratiques de « scraping » du web par les titans de l'IA comme Google et . Au cours des prochaines années, la justice devra réussir à trancher et fixer des restrictions adéquates.

, Reddit… comment les géants du web tentent de protéger leurs données

Face à cette moisson massive des données sur internet, plusieurs géants tels que Twitter et Reddit ont apporté des changements à leurs plateformes et suscité la controverse.

Elles ont notamment désactivé l'accès libre à leurs API, qui permettaient auparavant à n'importe qui de télécharger de vastes quantités de publications.

Le but était de protéger leur propriété intellectuelle d'autres entreprises, mais cette stratégie a eu des conséquences inattendues et regrettables pour les utilisateurs.

Par exemple, suite aux changements dans les API de Reddit et Twitter, de nombreux outils tiers utilisés pour accéder à ces sites ont cessé de fonctionner.

Alors que Twitter envisageait de forcer les services publics de météo, transport ou même d'urgences à payer pour tweeter, les critiques de nombreux internautes ont poussé le réseau social à faire marche arrière.

En outre, a récemment affirmé que les pannes subies par Twitter étaient directement causées par ce web scraping de masse. C'est la raison pour laquelle le nombre de tweets que vous pouvez voir chaque jour est désormais limité.

Et sur Reddit, les modérateurs bénévoles qui assurent le bon fonctionnement de la plateforme ont vivement dénoncé ce changement qui les empêche d'utiliser les outils tiers pour effectuer leur travail.

Autant dire que l'intelligence artificielle va profondément remodeler la manière dont les données sont exploitées par les GAFAM et le fonctionnement d'internet…

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *