AI在法庭上出庭的日子会成为现实吗？“律师的安稳”在短短几周内动摇了 — AI代理的成绩飙升的原因

2026年02月08日 14:26

「AI成为律师的日子不会到来」——直到不久前，这种确信的氛围一直存在。原因很简单，当给AI分配接近专业“实务”的任务时，AI的表现并不如预期。然而，这种氛围在短短几周内动摇了。

TechCrunch报道的是Mercor发布的AI代理评估“APEX-Agents”排名的变化。上个月，主要实验室的成绩普遍低于25%，因此“至少在短期内，法律职业是安全的”这一观点是成立的。然而，本周，Anthropic的Opus 4.6搅乱了排行榜，单次测试得分接近30%，增加测试次数后平均得分提升至45%左右。虽然这些数字仍难以称为“合格”，但增长幅度令人震惊。Mercor的CEO Brendan Foody也将短期内的急剧增长评价为“不可思议”。

“APEX-Agents”测量的是什么

APEX-Agents的有趣之处在于，它不仅仅是一个知识测试，而是试图在模拟投资银行分析师、顾问、企业法务等“高价值白领实务”的环境中，测量代理完成工作的能力。根据Mercor的说明，这需要使用多个应用程序、长时间计划、专业知识和推理，涉及33个“世界”和480个任务及评分标准。此外，还公开了用于数据和评估执行的机制（Archipelago）。换句话说，它不是制造“看似问题”，而是创造“看似现场”，并将其执行能力量化。

这种设计理念与法律领域相性良好。法务工作是将条文、判例、内部政策、合同条款、当事人情况等分散的材料连接起来，并形成合乎逻辑的结论和文件的连续工作。而且，资料并非单一。内部文件、邮件、聊天、外部法律法规和指导同时生效。正如TechCrunch上个月的文章所介绍的，模型容易绊倒在“跨多个领域的信息搜索和整合”上。

为什么Opus 4.6的分数飙升

谈论此次急剧增长的关键在于Anthropic在Opus 4.6中推出的“agent teams（代理团队）”。不是由一个代理依次完成工作，而是多个代理分工并行推进并进行协调——这是模拟人类团队工作的设计。据TechCrunch报道，这一功能作为研究预览提供给API用户/订阅者，并且在知识工作者的“现场导向”改进方面取得了进展，例如上下文长度的扩展（100万标记）和PowerPoint中的侧面板集成。

在像APEX-Agents这样的“多步骤推进”“中途修正方针”“整理成果物”类型的任务中，分工、重试和自我检查比单次的聪明才智更有效。TechCrunch也提到了Opus 4.6的“agentic features（代理功能）”可能在多步骤问题上有所帮助。

然而，这里重要的是“30%”这个数字的意义。距离100%还很远。这不是说律师下周就会失业。TechCrunch对此也进行了警告。但同时，“安全的断言”依据也变得薄弱。职业的替代不是零或百的过程。首先是从“可以削减的工作”开始削减。

在替代之前会发生的事情：法务工作的“分解”

将法律工作分解后，可以看到AI容易介入的部分。

初稿：合同模板、条款建议、风险点识别
研究辅助：论点整理、法律法规、判例和指导的初步判断
比较与总结：对方修正的差异说明、谈判论点的列表化
标准化处理：常见查询的回答建议、符合公司规则的模板化

这些工作即使需要“最终责任”或“判断”，大部分作业仍然是探索、整理和文本化。如果代理能够以低成本快速完成这些工作，法律事务所或企业法务的成本结构将发生变化。

另一方面，证言和情感的处理、与当事人的信任关系、价值判断的冲突等仅靠文本生成难以替代的部分仍然存在。换句话说，法务更可能是“形态改变”而非“全部消失”。

SNS的反应：期待与冷水同时喷发

对于此次话题，SNS（论坛和社区）的反应大致分为三个温度区间。

1) “作为辅助工具已经很方便。但没有监督是危险的”

在Reddit的法律社区中，一位自称现役律师的用户表示，“某些任务变得轻松，但存在幻觉和概念理解的缺陷，需要专家监督”，并将未来的定位描述为“下一代Westlaw（法律研究平台）”。虽然对完全自主替代持怀疑态度，但作为工具的普及已成为前提。

2) “法庭或刑事是不可能的。社会不会接受”

在法律社区的另一个帖子中，有人对刑事辩护的背景表示，“很难想象AI在程序的微妙判断中承担个案责任”，“让AI决定有罪/量刑是反乌托邦”。这里不仅涉及能力问题，还有正当性、透明性和人类接受的问题。

3) “谁来承担责任？合同和治理将成为瓶颈”

在Hacker News上，关于AI代理的责任归属、合同中的界定方式、SaaS的不确定性等“合同与责任分界”的讨论引发了热议。谁出售了有缺陷的产品，如何在合同中处理SaaS的不确定性——随着性能的提高，法务作为“使用AI的一方的法务”的需求也在增加，这是一种讽刺的局面。

此外，法律AI公司Harvey介绍说，Opus 4.6在其自家评估（BigLaw Bench）中获得了高分，并在实务任务（诉讼和交易领域）中展现了优势。这不是“研究分数”，而是“产品现场”的热情反应。

“30%”真正可怕的原因

那么，为什么即使是30%左右的分数也可能成为“威胁”？原因有两个。

第一个原因是，得分的领域偏向。法律工作中有些部分比起困难的判断，更偏向于标准化处理。即使只有这些部分被自动化，行业的招聘和培养结构（初级人员积累经验的场所）也会动摇。

第二个原因是，通过重试和分工接近实用领域。在APEX-Agents中，据说多次尝试的平均分数高于单次尝试。也就是说，随着“第一次可能出错”但“重试后能命中”类型能力的提升，人类的审查成本可以降低。

到此为止，讨论的中心不再是“律师是否会消失”。
“哪些工作会先变得便宜”，以及 “谁来监督，谁来承担责任” 将成为新的焦点。

即将发生的现实：法务的“AI前提化”

现实的未来图景可能是这样的。

企业法务将通过AI进行合同审查和内部咨询的一次处理，律师将专注于例外处理和谈判
法律事务所将提高调查和草拟的吞吐量，并重新审视价格体系（从固定成本到成果和价值）
“使用AI本身”的控制（日志、说明、审计、模型更新时的重新评估）将成为新的合规领域
同时，责任分界、免责和保证的写法将得到完善，“AI时代的合同实务”将变得更加厚重

与其说AI会成为法律家，不如说法律家将以AI为前提重塑工作来得更快。APEX-Agents的分数上升是提前揭示这一现实的事件。

出处

TechCrunch（2026/02/06）“也许AI代理真的可以成为律师”：关于APEX-Agents中Opus 4.6分数急剧上升的主文章
https://techcrunch.com/2026/02/06/maybe-ai-agents-can-be-lawyers-after-all/
Mercor“APEX-Agents排行榜”：关于APEX-Agents的设计（33个世界/480个任务）和分数列表（如Opus 4.6的29.8%）
https://www.mercor.com/apex/apex-agents-leaderboard/
TechCrunch（2026/02/05）“Anthropic发布Opus 4.6，带有新的‘代理团队’”：关于代理团队、100万标记上下文、PowerPoint集成等功能方面的说明
https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/
TechCrunch（2026/01/22）“AI代理准备好进入职场了吗？新的基准引发质疑”：关于APEX-Agents的背景，上个月的“苦战”背景
https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/
Reddit r/LawSchool“AI与未来”：现役律师视角的“辅助有效但需监督”的反应例
https://www.reddit.com/r/LawSchool/comments/1qvryim/ai_and_the_future/
Reddit r/Lawyertalk“比尔·盖茨称，到2030年律师将被AI完全取代”：关于刑事和法庭领域替代的怀疑和社会接受的反应例
https://www.reddit.com/r/Lawyertalk/comments/1kra6io/according_to_bill_gates_lawyers_will_be_fully/
Hacker News“为AI代理构建的法律合同”：关于AI代理的责任归属、合同中的界定方式、SaaS的不确定性等治理讨论的例子
https://news.ycombinator.com/item?id=45515640
Harvey（博客）“Opus 4.6，现在在Harvey上线”：法律AI现场的“实务评价高分”的反应例
https://www.harvey.ai/blog/opus-4-6-now-live-in-harvey

AI在法庭上出庭的日子会成为现实吗？“律师的安稳”在短短几周内动摇了 — AI代理的成绩飙升的原因

“APEX-Agents”测量的是什么

为什么Opus 4.6的分数飙升

在替代之前会发生的事情：法务工作的“分解”