跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

2025年,AI从“说话”到“行动”——AI代理元年的真相与2026年的任务

2025年,AI从“说话”到“行动”——AI代理元年的真相与2026年的任务

2026年01月06日 00:36

2025年,“AI代理”从“概念”到“基础设施”——以及2026年,我们面临的挑战

2025年是生成AI从“能够巧妙撰写文章的便利工具”进化为“能够使用外部工具,推进多步骤,并在某种程度上‘自主’完成工作的存在”的转折点。曾在实验室和演示中讨论的“代理”开始融入日常产品和业务设计,终于开始被视为现实的基础设施——这就是2025年发生的事情。The Dispatch


然而,这一变化并不是“未来已来”的简单故事。随着AI代理能力的增加,安全性、评估方法、标准化、治理、就业与监控、电力与数据中心等社会实施中必然伴随的摩擦显现出来。而2026年,很可能成为与这些摩擦妥协的“现场之年”。



“AI代理”定义的变化:从学术术语到产品规格

在AI领域,“代理”这个词自古有之。传统上,它是在观察环境、推理和行动的系统这一学术框架中被讨论的。然而,2025年的“代理”被重新定义为更偏向实务。大型语言模型(LLM)调用外部工具,使用API,自行推进任务——这种“能够行动”的特性被凸显出来。The Dispatch


加速这一趋势的因素之一是将LLM与外部工具标准化连接的机制。文章指出,2024年后期发布的Anthropic的Model Context Protocol(MCP)成为LLM“走出文本”的重要基础。The Dispatch
总之,代理的本质从“聪明的文章”转移到“跨系统完成工作的执行力”。



塑造2025年的里程碑:竞争、标准化,以及“浏览器的再发明”

1) 开放模型竞争的加速

2025年初,中国的DeepSeek-R1作为“开放权重”出现,动摇了谁能制造高性能模型的前提——文章回顾道。The Dispatch

此外,美国的主要实验室(OpenAI、Anthropic、Google、xAI等)和中国的科技公司(阿里巴巴、腾讯、DeepSeek等)都在推进模型发布和生态系统扩展,竞争呈现出“长期战”的地缘政治特征。The Dispatch


2) 代理之间对话的世界:Agent2Agent 和标准化

另一个转折点是Google提出的Agent2Agent(A2A)协议。与MCP侧重于“工具的使用”不同,A2A聚焦于“代理之间如何协作”。两者设计时假设结合使用,后来捐赠给Linux Foundation,标准化的趋势进一步加强。The Dispatch


标准化虽然低调但具有破坏力。因为一旦互联成本降低,代理就从“少数先进企业的玩具”变成“许多企业可以采用的组件”。


3) “代理型浏览器”作为下一个入口

文章列举了2025年中期“代理型浏览器”开始出现。浏览器不仅仅是搜索和阅读信息,还可以代为执行预订和购买等操作。The Dispatch

这不仅是UX的变化,也是权限设计的变化。也就是说,如果浏览器“代你操作”,那么登录信息、支付、个人信息、浏览历史等数据的重要性将提升一个层次。


4) 工作流构建者推动民主化

像n8n这样的工作流构建工具的普及,也扩大了能够“制作”定制代理的人群。The Dispatch
从“只有会编程的人才能自动化”到“了解业务的人也能组建自动化”。一旦这一点推进,代理的普及速度将大幅提升。



越强大越危险:“新力量”与“新风险”

2025年代理进化的特点是,能力增长的同时风险也以同样的速度显现。文章提到Claude Code代理被用于部分自动化网络攻击的案例,显示出“自动化重复性技术工作也降低了恶意活动的障碍”。The Dispatch


更棘手的是,代理的“连接”会放大脆弱性。单个LLM仅仅回答错误可能影响有限,但工具调用、浏览器操作、其他代理协作的叠加会增加“错误变成行动”的概率。The Dispatch


在错误变成行动的世界里,安全性不能仅仅是“事后检查清单”。



2026年的关注点:评估、治理,以及“模型越大越好吗?”

1) 重新设计基准测试:不仅测“结果”,还测“过程”

传统基准测试适合单一模型的性能比较。然而,代理是“模型+工具+记忆+决策逻辑”的复合体。因此,2026年“分数”不如“采取了什么步骤”重要,文章指出。The Dispatch

这就像在人类中,“答案是否正确”不如“展示中间步骤”重要。要构建可信赖的代理,过程可视化和评估方法的标准化是不可避免的。


2) 治理和标准组织:Agentic AI Foundation

2025年后期Linux Foundation成立了Agentic AI Foundation(AAIF),这表明“胜利的关键不在于独特标准,而在于互操作”。文章提到,AAIF可能承担类似W3C的角色。The Dispatch


随着互操作的推进,便利性提高的同时,如果不明确事故发生时的责任界限(谁负责到什么程度),现场就难以采用。2026年将考验“普及的责任设计”。


3) “大型模型”VS“小而专的模型”

模型越大越万能,但作为代理不一定是最佳解。文章指出,任务专用的小型模型在许多领域更具优势的讨论正在加强。The Dispatch


在现场,“能做一切”不如“能确实做到这一点”重要。2026年,用户将进入“根据目的选择模型”的时代,选择责任也将转移到用户一方。



仍然存在的社会问题:电力、就业、监控和监管

文章强调的不仅是技术问题。数据中心的扩展给电网带来负担,并影响到地方社会。在工作场所,自动化的推进加剧了就业替代和监控的担忧。The Dispatch


在安全方面,工具连接和多级代理化以“乘法”增加风险。尤其需要警惕间接提示注入(代理读取嵌入在网页上的指令,导致意外行为),文章指出。The Dispatch


关于监管,文章提出了相对于欧洲和中国,美国的监管较为有限的问题,未来“访问”“责任”“限制设定”未解决的情况下,生活基础设施的渗透风险依然存在。The Dispatch

正因为如此,代理不应被视为“仅仅是软件组件”,而应被视为“社会技术系统”,需要严格的工程、设计和文档——这是文章的结论。The Dispatch



SNS的反应(大致概览)

此次文章的主张(即2025年代理成为现实,2026年评估、标准、安全、社会实施成为课题)的温度感在SNS上也可见。然而,热情与冷静并存是其特点。


1) “终于想要‘秘书代理’了”——期待转向“生活琐事”

在Hacker News上,有声音认为2025年主要是面向开发者的代理增长,而下一个真正的应用将是非开发领域(事务、合同、发票、客户服务等)。实际上,也有评论表示“我需要的不是AGI,而是能处理琐事的秘书型代理”。Hacker News

这表明价值从“高能力”转向“减少现实麻烦”。


2) “瓶颈不是模型性能,而是信任和整合”——2026年是“导入之年”

在LinkedIn上的讨论中,有评论认为2026年是“部署(现场导入)”之年,问题不在于模型的聪明才智,而在于“信任性、整合、工作流的嵌入”。LinkedIn

文章提到的“过程评估”“治理”“标准化”与SNS的感受相当一致。


3) “每年,承诺都推到明年”——冷嘲与疲惫

同样在LinkedIn上,有一句印象深刻的话被引用:“Every year, we just move the promises to next year.(每年,我们只是把承诺推到明年)”。LinkedIn##HTML

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.