跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

X公司禁止将其内容用于AI训练!对日本的影响如何?

X公司禁止将其内容用于AI训练!对日本的影响如何?

2025年06月06日 20:16

X公司全面禁止使用自家内容进行AI模型训练

——对日本生成AI生态系统的冲击和重组的情景——





1. 引言——突如其来的“关门”

2025年6月5日,社交网络X(前Twitter)修改了开发者条款,全面禁止第三方利用X上的帖子或通过API获取的数据进行“基础模型(foundation / frontier model)的学习或微调”。TechCrunch最先发现此事,The Verge随后报道,全球AI开发者社区一片哗然。 



2. 解读变更——“逆向工程和其他限制”

新的条款仅在“逆向工程和其他限制”中添加了一行,但其影响巨大。通过X API进行的爬虫和抓取无一例外,“研究目的”或“非营利目的”的措辞也被明确排除。一直以来保障数据可移植性的“开放API文化”,在一夜之间转向封闭。



3. 背景——xAI的收购与“Grok”自身的学习需求

2025年3月,由埃隆·马斯克领导的xAI以约330亿美元收购了X,并推出了自家LLM“Grok”。X公司继续使用平台数据训练自家模型,同时对其他公司关闭大门,转向“围栏战略”。这种模式与Reddit和纽约时报通过将数据视为“资源”进行垄断,并以高价进行许可供给以获取收益的策略一致。



4. 全球趋势——Reddit诉讼与“许可业务”的崛起

2025年5月,Reddit以“爬虫次数超过10万”为由起诉Anthropic。Reddit将数据资产化,与Google签订了价值2亿美元的许可合同,同时对未经授权的使用采取强硬态度。X的举动加速了这种“内容围栏”的全球趋势。



5. 日本AI开发企业面临严重的“数据饥荒”

大规模语言模型(LLM)的性能依赖于数据量和多样性。由于日语社交媒体数据包含俚语、方言和国内话题,对于训练日语模型至关重要。然而,国内主要SNS的使用条款相继修改为“禁止AI学习”,未来获取成本和法律风险将大幅上升。结果是,


  • 与海外大型企业相比训练成本较高

  • 模型性能可能落后

  • 创业公司的创新机会缩小



的三重困境迫在眉睫。



6. 数据的替代来源──公开语料库和企业内部数据

为了规避限制,现实的解决方案包括:①国立国语研究所的公开语料库,②与报纸和广播公司签订的有偿合同,③对自有聊天记录、FAQ等“专有数据”的打磨,④合成数据生成。然而,公开语料库的许可证多种多样,即使遵循**著作权法第30条的4(信息解析规定)**,也需要单独确认二次利用条款。



7. 法律制度的现状──著作权法与robots.txt的界限

在日本,2018年修订的著作权法将“信息解析目的的复制等”纳入权利限制对象,但“商用LLM的学习”是否属于此范畴仍是灰色地带。此外,报纸协会于2025年6月4日发表声明,表示“应尊重通过robots.txt表示拒绝AI学习的意愿”,明确表示无视意愿进行学习是不当的。



8. “选择退出”能保护个人的帖子吗?

X提供了一个用户设置,可以选择“拒绝Grok学习”的选项,但此次的条款是对“第三方”的全面禁止,而X公司自身的学习仍然会使用用户的帖子,这一点需要注意。



9. 企业和研究机构的战略应对

  1. 尽早开始数据许可证谈判

  2. 已签约数据集的法律风险清单

  3. 生成AI的透明化(来源可追溯性)实施

  4. 合成数据与少量高质量学习“少数据战略”



这些是短期应对措施,长期来看需要跨行业共同整备日语开放数据的平台。



10. 对初创企业的影响──融资和评价的变化

风险投资公司过去重视“技术优势=模型性能”,但今后**“拥有多少通过正规许可证获得的数据”**将成为企业价值的关键。日本初创企业需要及早将数据战略纳入推介,并修正包含资本成本上升的业务计划。



11. 学术研究的两难──开放科学与知识产权保护

大学和公共研究机构原则上处于公开成果的立场,但如果使用企业数据训练模型,公开模型参数可能会违反许可证。与数据提供公司签署MOU,明确“可公开部分”和“非公开部分”的区分规则是至关重要的。



12. 与海外平台的温差──“开放与封闭”

Meta在Llama 3中大量使用了CC许可的网络数据,而YouTube尚未明确AI学习限制。在美国,**“合理使用”理论**在一定程度上成为保护伞,而在欧盟,AI法案预计将于2026年实施,届时将施加透明度义务。X的封闭化象征着“即使在美国,数据也不再免费”的时代到来,跨境数据治理战争将全面展开。



13. 日本政府的立场与政策建议

经济产业省在“生成AI利用指南(草案)”中纳入了“尊重数据提供者意愿”的内容,同时提出确保AI产业竞争力。未来,


  • 公共数据的机器可读化和二次利用自由化

  • 大学和公共研究机构的共享云/数据湖的建设

  • 中小企业和初创企业的数据获取补助金



这三点将成为关键。



14. “独特数据”才是竞争优势──新的价值链

平台公司越是将数据封闭,企业内部未被发掘的业务日志、供应链数据、客户聊天等“未开发数据”的价值就越高。日本企业可以通过打磨海外难以接触的语言和商业习惯壁垒数据,以“利基但深厚的专业性”为武器,在全球市场上实现差异化。



15. 总结──“数据的质量和访问”决定AI竞争力

X公司的使用条款修改,乍一看只是政策变更,实际上是颠覆生成AI产业力量平衡的“数据争夺战”新篇章的开端。日本的AI开发者、企业、政策机构需要


  1. 数据采购的多样化和法律风险管理

  2. 开放数据基础设施的共同构建

  3. 通过创造独特数据实现差异化



这三大支柱迅速完善,否则将失去在全球市场的竞争力。反过来说,能够克服这一危机,实现**“高质量独特数据×高效模型”**的企业,将成为下一个生成AI时代的赢家。




TechCrunch

  • The Verge

  • Reuters

  • 日本新闻协会

  • 数字厅

参考文章

公司修改使用条款,禁止使用其内容训练AI模型
来源: https://techcrunch.com/2025/06/05/x-changes-its-terms-to-bar-training-of-ai-models-using-its-content/

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.