2025年，AI从“说话”到“行动”——AI代理元年的真相与2026年的任务

2026年01月06日 00:36

2025年，“AI代理”从“概念”到“基础设施”——以及2026年，我们面临的挑战

2025年是生成AI从“能够巧妙撰写文章的便利工具”进化为“能够使用外部工具，推进多步骤，并在某种程度上‘自主’完成工作的存在”的转折点。曾在实验室和演示中讨论的“代理”开始融入日常产品和业务设计，终于开始被视为现实的基础设施——这就是2025年发生的事情。The Dispatch

然而，这一变化并不是“未来已来”的简单故事。随着AI代理能力的增加，安全性、评估方法、标准化、治理、就业与监控、电力与数据中心等社会实施中必然伴随的摩擦显现出来。而2026年，很可能成为与这些摩擦妥协的“现场之年”。

“AI代理”定义的变化：从学术术语到产品规格

在AI领域，“代理”这个词自古有之。传统上，它是在观察环境、推理和行动的系统这一学术框架中被讨论的。然而，2025年的“代理”被重新定义为更偏向实务。大型语言模型（LLM）调用外部工具，使用API，自行推进任务——这种“能够行动”的特性被凸显出来。The Dispatch

加速这一趋势的因素之一是将LLM与外部工具标准化连接的机制。文章指出，2024年后期发布的Anthropic的Model Context Protocol（MCP）成为LLM“走出文本”的重要基础。The Dispatch
总之，代理的本质从“聪明的文章”转移到“跨系统完成工作的执行力”。

塑造2025年的里程碑：竞争、标准化，以及“浏览器的再发明”

1) 开放模型竞争的加速

2025年初，中国的DeepSeek-R1作为“开放权重”出现，动摇了谁能制造高性能模型的前提——文章回顾道。The Dispatch

此外，美国的主要实验室（OpenAI、Anthropic、Google、xAI等）和中国的科技公司（阿里巴巴、腾讯、DeepSeek等）都在推进模型发布和生态系统扩展，竞争呈现出“长期战”的地缘政治特征。The Dispatch

2) 代理之间对话的世界：Agent2Agent 和标准化

另一个转折点是Google提出的Agent2Agent（A2A）协议。与MCP侧重于“工具的使用”不同，A2A聚焦于“代理之间如何协作”。两者设计时假设结合使用，后来捐赠给Linux Foundation，标准化的趋势进一步加强。The Dispatch

标准化虽然低调但具有破坏力。因为一旦互联成本降低，代理就从“少数先进企业的玩具”变成“许多企业可以采用的组件”。

3) “代理型浏览器”作为下一个入口

文章列举了2025年中期“代理型浏览器”开始出现。浏览器不仅仅是搜索和阅读信息，还可以代为执行预订和购买等操作。The Dispatch

这不仅是UX的变化，也是权限设计的变化。也就是说，如果浏览器“代你操作”，那么登录信息、支付、个人信息、浏览历史等数据的重要性将提升一个层次。

4) 工作流构建者推动民主化

像n8n这样的工作流构建工具的普及，也扩大了能够“制作”定制代理的人群。The Dispatch
从“只有会编程的人才能自动化”到“了解业务的人也能组建自动化”。一旦这一点推进，代理的普及速度将大幅提升。

越强大越危险：“新力量”与“新风险”

2025年代理进化的特点是，能力增长的同时风险也以同样的速度显现。文章提到Claude Code代理被用于部分自动化网络攻击的案例，显示出“自动化重复性技术工作也降低了恶意活动的障碍”。The Dispatch

更棘手的是，代理的“连接”会放大脆弱性。单个LLM仅仅回答错误可能影响有限，但工具调用、浏览器操作、其他代理协作的叠加会增加“错误变成行动”的概率。The Dispatch

在错误变成行动的世界里，安全性不能仅仅是“事后检查清单”。

2026年的关注点：评估、治理，以及“模型越大越好吗？”

1) 重新设计基准测试：不仅测“结果”，还测“过程”

传统基准测试适合单一模型的性能比较。然而，代理是“模型+工具+记忆+决策逻辑”的复合体。因此，2026年“分数”不如“采取了什么步骤”重要，文章指出。The Dispatch

这就像在人类中，“答案是否正确”不如“展示中间步骤”重要。要构建可信赖的代理，过程可视化和评估方法的标准化是不可避免的。

2) 治理和标准组织：Agentic AI Foundation

2025年后期Linux Foundation成立了Agentic AI Foundation（AAIF），这表明“胜利的关键不在于独特标准，而在于互操作”。文章提到，AAIF可能承担类似W3C的角色。The Dispatch

随着互操作的推进，便利性提高的同时，如果不明确事故发生时的责任界限（谁负责到什么程度），现场就难以采用。2026年将考验“普及的责任设计”。

3) “大型模型”VS“小而专的模型”

模型越大越万能，但作为代理不一定是最佳解。文章指出，任务专用的小型模型在许多领域更具优势的讨论正在加强。The Dispatch

在现场，“能做一切”不如“能确实做到这一点”重要。2026年，用户将进入“根据目的选择模型”的时代，选择责任也将转移到用户一方。

仍然存在的社会问题：电力、就业、监控和监管

文章强调的不仅是技术问题。数据中心的扩展给电网带来负担，并影响到地方社会。在工作场所，自动化的推进加剧了就业替代和监控的担忧。The Dispatch

在安全方面，工具连接和多级代理化以“乘法”增加风险。尤其需要警惕间接提示注入（代理读取嵌入在网页上的指令，导致意外行为），文章指出。The Dispatch

关于监管，文章提出了相对于欧洲和中国，美国的监管较为有限的问题，未来“访问”“责任”“限制设定”未解决的情况下，生活基础设施的渗透风险依然存在。The Dispatch

正因为如此，代理不应被视为“仅仅是软件组件”，而应被视为“社会技术系统”，需要严格的工程、设计和文档——这是文章的结论。The Dispatch

SNS的反应（大致概览）

此次文章的主张（即2025年代理成为现实，2026年评估、标准、安全、社会实施成为课题）的温度感在SNS上也可见。然而，热情与冷静并存是其特点。

1) “终于想要‘秘书代理’了”——期待转向“生活琐事”

在Hacker News上，有声音认为2025年主要是面向开发者的代理增长，而下一个真正的应用将是非开发领域（事务、合同、发票、客户服务等）。实际上，也有评论表示“我需要的不是AGI，而是能处理琐事的秘书型代理”。Hacker News

这表明价值从“高能力”转向“减少现实麻烦”。

2) “瓶颈不是模型性能，而是信任和整合”——2026年是“导入之年”

在LinkedIn上的讨论中，有评论认为2026年是“部署（现场导入）”之年，问题不在于模型的聪明才智，而在于“信任性、整合、工作流的嵌入”。LinkedIn

文章提到的“过程评估”“治理”“标准化”与SNS的感受相当一致。

3) “每年，承诺都推到明年”——冷嘲与疲惫

同样在LinkedIn上，有一句印象深刻的话被引用：“Every year, we just move the promises to next year.（每年，我们只是把承诺推到明年）”。LinkedIn##HTML

2025年，AI从“说话”到“行动”——AI代理元年的真相与2026年的任务

2025年，“AI代理”从“概念”到“基础设施”——以及2026年，我们面临的挑战

“AI代理”定义的变化：从学术术语到产品规格

塑造2025年的里程碑：竞争、标准化，以及“浏览器的再发明”

1) 开放模型竞争的加速

2) 代理之间对话的世界：Agent2Agent 和标准化

3) “代理型浏览器”作为下一个入口

4) 工作流构建者推动民主化

越强大越危险：“新力量”与“新风险”

2026年的关注点：评估、治理，以及“模型越大越好吗？”

1) 重新设计基准测试：不仅测“结果”，还测“过程”

2) 治理和标准组织：Agentic AI Foundation

3) “大型模型”VS“小而专的模型”

仍然存在的社会问题：电力、就业、监控和监管

SNS的反应（大致概览）

1) “终于想要‘秘书代理’了”——期待转向“生活琐事”

2) “瓶颈不是模型性能，而是信任和整合”——2026年是“导入之年”

3) “每年，承诺都推到明年”——冷嘲与疲惫

AI革命！ChatGPT全面支持您的在线购物和演示准备

OpenAI的新革命: ChatGPT代理将改变您的业务

网站成为“舞台布景”——生成AI时代的电子商务和营销大转变

「理解你的机器」之后的未来：比人类更温柔的AI加深社会孤独的一天

“购买”的主角从人类转向AI？在零售盛典上加速的代理型电商

cookie_banner_title

2025年，“AI代理”从“概念”到“基础设施”——以及2026年，我们面临的挑战

“AI代理”定义的变化：从学术术语到产品规格

塑造2025年的里程碑：竞争、标准化，以及“浏览器的再发明”

1) 开放模型竞争的加速

2) 代理之间对话的世界：Agent2Agent 和标准化

3) “代理型浏览器”作为下一个入口

4) 工作流构建者推动民主化

越强大越危险：“新力量”与“新风险”

2026年的关注点：评估、治理，以及“模型越大越好吗？”

1) 重新设计基准测试：不仅测“结果”，还测“过程”

2) 治理和标准组织：Agentic AI Foundation

3) “大型模型”VS“小而专的模型”

仍然存在的社会问题：电力、就业、监控和监管

SNS的反应（大致概览）

1) “终于想要‘秘书代理’了”——期待转向“生活琐事”

2) “瓶颈不是模型性能，而是信任和整合”——2026年是“导入之年”

3) “每年，承诺都推到明年”——冷嘲与疲惫

AI革命！ChatGPT全面支持您的在线购物和演示准备

OpenAI的新革命: ChatGPT代理将改变您的业务

网站成为“舞台布景”——生成AI时代的电子商务和营销大转变

「理解你的机器」之后的未来：比人类更温柔的AI加深社会孤独的一天

“购买”的主角从人类转向AI？ 在零售盛典上加速的代理型电商

“购买”的主角从人类转向AI？在零售盛典上加速的代理型电商