“公开数据”可以随意获取吗？因谷歌诉讼而动摇的抓取实务

2025年12月21日 07:51

「搜索结果抓取API」终于走上法庭

2025年12月19日（美国时间），Google在德克萨斯州起诉了数据抓取公司SerpApi。争论点看似简单，实则复杂。自动获取搜索结果（SERP）并“作为API出售”的行为，是便利的基础设施，还是搭便车于搜索引擎和出版商投资的装置。随着进入AI时代，搜索数据的价值大幅上升，长期处于灰色地带的业务被迅速拉到了“舞台中央”。 The Verge

发生了什么？——Google的主张要点整理

据报道，Google声称SerpApi大规模抓取包括Google搜索结果在内的网络内容，并转售给客户。此外，Google指控SerpApi绕过其为防止抓取而投入的机制（SearchGuard），伪装成用户访问。 The Verge

Google特别关注的问题是“搜索结果中包含的著作物”。搜索结果不仅包括链接和文本，还包括知识面板等显示的图像和各种模块，以及与Maps/Shopping相关的信息，这些素材基于许可协议。Google认为，SerpApi通过“获取→整形→API提供”的方式，破坏了Google和权利持有者承担的成本和权利设计。 Reuters

此外，SEO行业媒体报道称，Google在诉状中将SerpApi的模式描述为“寄生性”，并指出其人工请求量巨大。 Search Engine Roundtable

什么是SearchGuard：“人类浏览”和“自动获取”之间的屏障

此次事件的核心是SearchGuard。根据The Verge的整理，SearchGuard于2025年1月推出，旨在阻止未经授权的抓取。Google声称，SerpApi使用伪装浏览器和多个IP地址，假装成人类访问以突破这一屏障。 The Verge

行业媒体的解释进一步指出，SearchGuard通过JavaScript挑战等方式确认“人类浏览器特征”，对正规用户自然通过，而对机器人形成障碍。 PPC Land

Google的官方博客文章也批评了隐形抓取者通过伪装、僵尸网络式大量访问、伪装爬虫名称等方式无视网站意图（如robots.txt），剥夺权利持有者的选择。过去一年，这种行为大幅增加，Google表示“作为最后手段提起诉讼”。 Google Blog

SerpApi是什么，为何被使用

SerpApi以获取Google和Bing等搜索结果并整形为JSON等格式，便于嵌入应用和分析平台的服务而闻名。在实际操作中，

竞争调查、价格和库存调查、SERP排名变化追踪
监控（虚假信息和诈骗网站检测）
LLM/搜索相关产品的“参考URL收集”
等“将搜索结果作为材料”的用途早已存在。

而且一个重要的背景是，Google未向公众提供“搜索结果本身的官方API”。Ars Technica指出，SERP抓取在满足需求的同时，法律上往往处于灰色地带。 Ars Technica

SerpApi的反驳：“公开信息”“抑制竞争的诉讼”

SerpApi方面表示将全面抗争，报道称其声称“提供与无需登录即可在浏览器中显示的信息相同的内容”，并认为此次诉讼是对下一代AI、安全、浏览器等“创新者”的竞争抑制。 Reuters

这是讨论的“核心”。

屏幕上可见＝是否意味着可以自由自动收集？
一旦涉及数量和手段（规避和伪装），是否就成为另一回事？
对“搜索结果页面”这一编辑物，著作权/保护的范围有多大？

Google强烈关注“手段（规避）和规模（大量）”，而SerpApi则强调“公开信息的访问”。双方的观点在技术和思想上都存在分歧。 The Verge

为何是现在？——AI使“搜索数据的价值”大幅上升

此次诉讼受到关注，是因为AI的普及使“搜索结果数据的价值”大幅上升。Ars Technica指出，聊天机器人要总结网页，首先需要链接群（即接近搜索结果的素材），因此对SERP数据的需求增加。 Ars Technica

此外，背景还有Reddit在2025年10月对Perplexity和多家抓取公司（包括SerpApi）提起诉讼，其中也提到了Google的防御（SearchGuard）。 Ars Technica

此次Reuters还报道了Reddit支持Google提起诉讼的立场。 Reuters

法律争议点：关键在于“DMCA规避”和“著作权・合同”

根据报道和行业解读，Google的核心有两点。

规避技术保护措施（围绕DMCA 1201条）
侵犯搜索结果中包含的著作物・许可素材，以及违反使用条款

特别是DMCA（规避技术保护措施），因为不仅是“复制粘贴”，而是“突破防护访问”，因此容易成为争论点。SEO行业媒体介绍了Google在DMCA 1201条框架下的争论姿态，以及请求增长率（最高增长25,000%）等。 Search Engine Roundtable

此外，诉讼于2025年12月19日在加利福尼亚北部地区联邦地方法院提起，这一裁判记录信息也得到了确认。 Justia Dockets & Filings

※此处为一般论述：最终的违法/合法判断取决于裁判的事实认定，目前处于双方主张阶段。

从此行业将如何发展？（对SEO・数据・AI产品的影响）

此次诉讼对从业者而言并非“隔岸观火”的原因有三。

1) “以Google搜索结果为材料”的业务将被重组

许多工具和分析以SERP获取为前提。如果有禁令或强烈判断，依赖SERP数据的服务将需要更换供应来源或从根本上重组获取方法。 Ars Technica

2) 替代数据源（他社索引/许可）的价值将上升

Ars Technica指出，若SERP抓取变得困难，需求可能转向拥有官方API的其他索引/搜索基础。 Ars Technica

3) “公开信息”的处理将在AI时代重新定义

“公开＝可以自由机器收集”的直觉根深蒂固，但AI时代“收集规模”截然不同。Google希望对此加以限制，而SerpApi则主张限制公开数据的访问会阻碍创新。 The Times of India

SNS的反应：围绕“二重标准”的争论分歧明显

此次事件，SNS和社区中显著的不是“正义的执行”，而是**“你也配说”问题**。

反应1：“Google起诉抓取者，像是在照镜子”

Search Engine Roundtable的评论区中，有人提到Google长期以来通过整合出版商内容并通过广告盈利，认为Google的诉讼是“反过来起诉Google的信号”。 Search Engine Roundtable

反应2：“不，SerpApi是中间商。欢迎阻止”

同一评论区中，也有观点认为“SerpApi毫无救赎”“只不过是中间商”，因此欢迎其被排除。 ##HTML_TAG_