跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

“公开数据”可以随意获取吗?因谷歌诉讼而动摇的抓取实务

“公开数据”可以随意获取吗?因谷歌诉讼而动摇的抓取实务

2025年12月21日 07:51

「搜索结果抓取API」终于走上法庭

2025年12月19日(美国时间),Google在德克萨斯州起诉了数据抓取公司SerpApi。争论点看似简单,实则复杂。自动获取搜索结果(SERP)并“作为API出售”的行为,是便利的基础设施,还是搭便车于搜索引擎和出版商投资的装置。随着进入AI时代,搜索数据的价值大幅上升,长期处于灰色地带的业务被迅速拉到了“舞台中央”。 The Verge



发生了什么?——Google的主张要点整理

据报道,Google声称SerpApi大规模抓取包括Google搜索结果在内的网络内容,并转售给客户。此外,Google指控SerpApi绕过其为防止抓取而投入的机制(SearchGuard),伪装成用户访问。 The Verge


Google特别关注的问题是“搜索结果中包含的著作物”。搜索结果不仅包括链接和文本,还包括知识面板等显示的图像和各种模块,以及与Maps/Shopping相关的信息,这些素材基于许可协议。Google认为,SerpApi通过“获取→整形→API提供”的方式,破坏了Google和权利持有者承担的成本和权利设计。 Reuters


此外,SEO行业媒体报道称,Google在诉状中将SerpApi的模式描述为“寄生性”,并指出其人工请求量巨大。 Search Engine Roundtable



什么是SearchGuard:“人类浏览”和“自动获取”之间的屏障

此次事件的核心是SearchGuard。根据The Verge的整理,SearchGuard于2025年1月推出,旨在阻止未经授权的抓取。Google声称,SerpApi使用伪装浏览器和多个IP地址,假装成人类访问以突破这一屏障。 The Verge


行业媒体的解释进一步指出,SearchGuard通过JavaScript挑战等方式确认“人类浏览器特征”,对正规用户自然通过,而对机器人形成障碍。 PPC Land


Google的官方博客文章也批评了隐形抓取者通过伪装、僵尸网络式大量访问、伪装爬虫名称等方式无视网站意图(如robots.txt),剥夺权利持有者的选择。过去一年,这种行为大幅增加,Google表示“作为最后手段提起诉讼”。 Google Blog



SerpApi是什么,为何被使用

SerpApi以获取Google和Bing等搜索结果并整形为JSON等格式,便于嵌入应用和分析平台的服务而闻名。在实际操作中,

  • 竞争调查、价格和库存调查、SERP排名变化追踪

  • 监控(虚假信息和诈骗网站检测)

  • LLM/搜索相关产品的“参考URL收集”
    等“将搜索结果作为材料”的用途早已存在。


而且一个重要的背景是,Google未向公众提供“搜索结果本身的官方API”。Ars Technica指出,SERP抓取在满足需求的同时,法律上往往处于灰色地带。 Ars Technica



SerpApi的反驳:“公开信息”“抑制竞争的诉讼”

SerpApi方面表示将全面抗争,报道称其声称“提供与无需登录即可在浏览器中显示的信息相同的内容”,并认为此次诉讼是对下一代AI、安全、浏览器等“创新者”的竞争抑制。 Reuters


这是讨论的“核心”。

  • 屏幕上可见=是否意味着可以自由自动收集?

  • 一旦涉及数量和手段(规避和伪装),是否就成为另一回事?

  • 对“搜索结果页面”这一编辑物,著作权/保护的范围有多大?


Google强烈关注“手段(规避)和规模(大量)”,而SerpApi则强调“公开信息的访问”。双方的观点在技术和思想上都存在分歧。 The Verge



为何是现在?——AI使“搜索数据的价值”大幅上升

此次诉讼受到关注,是因为AI的普及使“搜索结果数据的价值”大幅上升。Ars Technica指出,聊天机器人要总结网页,首先需要链接群(即接近搜索结果的素材),因此对SERP数据的需求增加。 Ars Technica


此外,背景还有Reddit在2025年10月对Perplexity和多家抓取公司(包括SerpApi)提起诉讼,其中也提到了Google的防御(SearchGuard)。 Ars Technica


此次Reuters还报道了Reddit支持Google提起诉讼的立场。 Reuters



法律争议点:关键在于“DMCA规避”和“著作权・合同”

根据报道和行业解读,Google的核心有两点。

  1. 规避技术保护措施(围绕DMCA 1201条)

  2. 侵犯搜索结果中包含的著作物・许可素材,以及违反使用条款


特别是DMCA(规避技术保护措施),因为不仅是“复制粘贴”,而是“突破防护访问”,因此容易成为争论点。SEO行业媒体介绍了Google在DMCA 1201条框架下的争论姿态,以及请求增长率(最高增长25,000%)等。 Search Engine Roundtable


此外,诉讼于2025年12月19日在加利福尼亚北部地区联邦地方法院提起,这一裁判记录信息也得到了确认。 Justia Dockets & Filings


※此处为一般论述:最终的违法/合法判断取决于裁判的事实认定,目前处于双方主张阶段。



从此行业将如何发展?(对SEO・数据・AI产品的影响)

此次诉讼对从业者而言并非“隔岸观火”的原因有三。

1) “以Google搜索结果为材料”的业务将被重组

许多工具和分析以SERP获取为前提。如果有禁令或强烈判断,依赖SERP数据的服务将需要更换供应来源或从根本上重组获取方法。 Ars Technica


2) 替代数据源(他社索引/许可)的价值将上升

Ars Technica指出,若SERP抓取变得困难,需求可能转向拥有官方API的其他索引/搜索基础。 Ars Technica


3) “公开信息”的处理将在AI时代重新定义

“公开=可以自由机器收集”的直觉根深蒂固,但AI时代“收集规模”截然不同。Google希望对此加以限制,而SerpApi则主张限制公开数据的访问会阻碍创新。 The Times of India



SNS的反应:围绕“二重标准”的争论分歧明显

此次事件,SNS和社区中显著的不是“正义的执行”,而是**“你也配说”问题**。


反应1:“Google起诉抓取者,像是在照镜子”

Search Engine Roundtable的评论区中,有人提到Google长期以来通过整合出版商内容并通过广告盈利,认为Google的诉讼是“反过来起诉Google的信号”。 Search Engine Roundtable


反应2:“不,SerpApi是中间商。欢迎阻止”

同一评论区中,也有观点认为“SerpApi毫无救赎”“只不过是中间商”,因此欢迎其被排除。 ##HTML_TAG_

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.