Les "données publiques" peuvent-elles être librement collectées ? La pratique du scraping ébranlée par le procès intenté par Google

Les "données publiques" peuvent-elles être librement collectées ? La pratique du scraping ébranlée par le procès intenté par Google

« L'API qui aspire les résultats de recherche » enfin devant le tribunal

Le 19 décembre 2025 (heure des États-Unis), Google a intenté un procès contre SerpApi, une entreprise de scraping de données basée au Texas. Bien que le point de litige semble simple, il est en réalité complexe.L'acte de récupérer automatiquement les résultats de recherche (SERP) et de les vendre comme une « API » est-il une infrastructure pratique ou un dispositif qui profite gratuitement des investissements des moteurs de recherche et des éditeurs ? Avec l'avènement de l'ère de l'IA, la valeur des données de recherche a explosé, ce qui a fait sortir de l'ombre un business qui était depuis longtemps dans une zone grise. The Verge



Que s'est-il passé ? — Résumé des arguments de Google

Selon les rapports, Google affirme que SerpApi effectue un scraping à grande échelle de contenus sur le web, y compris les résultats de recherche Google, et les revend à ses clients. De plus, Google accuse SerpApi d'avoir contourné le système de protection contre le scraping (SearchGuard) en accédant aux résultats comme si c'était une navigation humaine. The Verge


Ce que Google considère particulièrement problématique, ce sont les « œuvres protégées par le droit d'auteur » incluses dans les résultats de recherche. Les résultats de recherche ne se limitent pas aux liens et au texte, mais incluent également des images et divers modules apparaissant dans le Knowledge Panel, ainsi que des informations liées à Maps/Shopping, qui sont basées sur des contrats de licence. Google estime que SerpApi perturbe les coûts et la conception des droits supportés par Google et les titulaires de droits en « obtenant → formant → fournissant en API » ces éléments. Reuters


Les médias spécialisés dans le SEO rapportent également que Google qualifie le modèle de SerpApi de « parasitaire » et souligne dans la plainte que le volume de requêtes artificielles est énorme. Search Engine Roundtable



Qu'est-ce que SearchGuard : la barrière entre « navigation humaine » et « acquisition automatique »

Au cœur de cette histoire se trouve SearchGuard. Selon The Verge, SearchGuard a été déployé en janvier 2025 pour stopper le scraping non autorisé. Google affirme que SerpApi a utilisé des navigateurs déguisés et de nombreuses adresses IP pour franchir cette barrière en simulant un accès humain. The Verge


Les médias de l'industrie expliquent en outre que SearchGuard utilise des défis JavaScript pour vérifier la « légitimité humaine du navigateur », ce qui permet aux utilisateurs légitimes de passer naturellement, tout en constituant une barrière pour les bots. PPC Land


Le blog officiel de Google critique également les scrapers furtifs pour avoir ignoré les intentions des sites (robots.txt, etc.) en utilisant le cloaking, un accès massif de type botnet, et la falsification du nom de crawler, privant ainsi les titulaires de droits de leur choix. Google indique que ces comportements ont considérablement augmenté au cours de l'année écoulée, justifiant ainsi le recours à une action en justice comme « dernier recours ». Google Blog



Qui est SerpApi et pourquoi a-t-il été utilisé ?

SerpApi est connu pour être un service qui récupère les résultats de recherche de Google, Bing, etc., les formate en JSON, entre autres, et les intègre facilement dans des applications ou des plateformes d'analyse. Dans le domaine professionnel,

  • pour les études de concurrence, la surveillance des prix et des stocks, le suivi des fluctuations de classement des SERP

  • la surveillance (détection de fausses informations et de sites frauduleux)

  • la collecte d'URL de référence pour les produits LLM/recherche
    , les usages traitant les « résultats de recherche comme matière première » ont toujours existé.


Et l'un des grands facteurs est que Google ne fournit pas d'API officielle des « résultats de recherche en tant que tels » pour le grand public. Ars Technica explique que bien que le scraping des SERP réponde à un besoin, il tend à être juridiquement ambigu. Ars Technica



La réponse de SerpApi : « C'est de l'information publique », « Un procès pour étouffer la concurrence »

SerpApi adopte une position de contestation totale, affirmant dans les rapports qu'il fournit « la même information affichée dans le navigateur sans connexion requise », et que ce procès est une répression de la concurrence pour les « innovateurs » créant la prochaine génération d'IA, de sécurité, de navigateurs, etc.. Reuters


C'est là que réside le cœur du débat.

  • Ce qui est visible à l'écran peut-il être librement collecté automatiquement ?

  • Le volume et les moyens (contournement, déguisement) changent-ils la donne ?

  • Dans quelle mesure le droit d'auteur/protection s'applique-t-il à l'« œuvre éditoriale » qu'est la page de résultats de recherche ?


Google met fortement l'accent sur les « moyens (contournement) et l'échelle (massive) », tandis que SerpApi met en avant « l'accès à l'information publique ». Les arguments des deux parties divergent tant sur le plan technique que philosophique. The Verge



Pourquoi maintenant ? — L'IA a fait exploser la « valeur des données de recherche »

Ce procès attire l'attention parce que la valeur des données de résultats de recherche a explosé avec la diffusion de l'IA. Ars Technica souligne que même pour résumer le Web, les chatbots ont besoin d'un ensemble de liens (matériau proche des résultats de recherche), ce qui a accru la demande de données SERP. Ars Technica


En outre, en octobre 2025, Reddit a intenté un procès contre Perplexity et plusieurs entreprises de scraping (dont SerpApi), où la défense de Google (SearchGuard) a également été mentionnée. Ars Technica


Reuters rapporte également que Reddit a exprimé son soutien à la plainte de Google. Reuters



Enjeux juridiques : les points clés sont « l'évitement du DMCA » et « droits d'auteur et contrats »

Selon les rapports et les analyses de l'industrie, Google se concentre principalement sur deux aspects.

  1. L'évitement des mesures de protection technique (autour de l'article 1201 du DMCA)

  2. La violation des œuvres protégées par le droit d'auteur et des matériaux sous licence inclus dans les résultats de recherche, ainsi que la violation des conditions d'utilisation


En particulier, le DMCA (évitement des mesures de protection technique) permet de se concentrer sur le fait que l'accès a été obtenu en « contournant la protection », ce qui facilite la formulation des arguments. Les médias spécialisés dans le SEO rapportent que Google adopte une position de contestation dans le cadre de l'article 1201 du DMCA et mentionnent l'augmentation du taux de requêtes (jusqu'à 25 000 % d'augmentation). Search Engine Roundtable


Il est également confirmé que la plainte a été déposée le 19 décembre 2025 devant le tribunal fédéral du district nord de Californie, selon les informations des dossiers judiciaires. Justia Dockets & Filings


※ Ceci est une généralité : la décision finale de légalité/illégalité dépendra de la reconnaissance des faits par le tribunal, et à ce stade, il s'agit des arguments des deux parties.



Quelles seront les conséquences pour l'industrie ? (Impact sur le SEO, les données, et les produits IA)

Ce procès n'est pas un « feu lointain » pour les praticiens pour trois raisons.

1) Les affaires basées sur « l'utilisation des résultats de recherche de Google comme matériau » seront réorganisées

De nombreux outils et analyses reposent sur l'acquisition de SERP. Si une injonction ou une décision forte est rendue, les services dépendant des données SERP devront changer de fournisseur ou réorganiser fondamentalement leur méthode d'acquisition. Ars Technica


2) La valeur des sources de données alternatives (autres index/licences) augmentera

Ars Technica suggère que si le scraping des SERP devient difficile, la demande pourrait se déplacer vers d'autres index ou bases de recherche ayant une API officielle. Ars Technica


3) Le traitement des « informations publiques » sera redéfini à l'ère de l'IA

L'intuition selon laquelle « ce qui est public peut être collecté automatiquement » est profondément ancrée, mais à l'ère de l'IA, l'« échelle de collecte » est d'un tout autre ordre. Google souhaite y mettre un frein. D'un autre côté, SerpApi affirme que restreindre l'accès aux données publiques freinerait l'innovation. The Times of India##HTML_TAG_405