AI在法庭上出庭的日子会成为现实吗?“律师的安稳”在短短几周内动摇了 — AI代理的成绩飙升的原因

AI在法庭上出庭的日子会成为现实吗?“律师的安稳”在短短几周内动摇了 — AI代理的成绩飙升的原因

「AI成为律师的日子不会到来」——直到不久前,这种确信的氛围一直存在。原因很简单,当给AI分配接近专业“实务”的任务时,AI的表现并不如预期。然而,这种氛围在短短几周内动摇了。


TechCrunch报道的是Mercor发布的AI代理评估“APEX-Agents”排名的变化。上个月,主要实验室的成绩普遍低于25%,因此“至少在短期内,法律职业是安全的”这一观点是成立的。然而,本周,Anthropic的Opus 4.6搅乱了排行榜,单次测试得分接近30%,增加测试次数后平均得分提升至45%左右。虽然这些数字仍难以称为“合格”,但增长幅度令人震惊。Mercor的CEO Brendan Foody也将短期内的急剧增长评价为“不可思议”。



“APEX-Agents”测量的是什么

APEX-Agents的有趣之处在于,它不仅仅是一个知识测试,而是试图在模拟投资银行分析师、顾问、企业法务等“高价值白领实务”的环境中,测量代理完成工作的能力。根据Mercor的说明,这需要使用多个应用程序、长时间计划、专业知识和推理,涉及33个“世界”和480个任务及评分标准。此外,还公开了用于数据和评估执行的机制(Archipelago)。换句话说,它不是制造“看似问题”,而是创造“看似现场”,并将其执行能力量化。


这种设计理念与法律领域相性良好。法务工作是将条文、判例、内部政策、合同条款、当事人情况等分散的材料连接起来,并形成合乎逻辑的结论和文件的连续工作。而且,资料并非单一。内部文件、邮件、聊天、外部法律法规和指导同时生效。正如TechCrunch上个月的文章所介绍的,模型容易绊倒在“跨多个领域的信息搜索和整合”上。



为什么Opus 4.6的分数飙升

谈论此次急剧增长的关键在于Anthropic在Opus 4.6中推出的“agent teams(代理团队)”。不是由一个代理依次完成工作,而是多个代理分工并行推进并进行协调——这是模拟人类团队工作的设计。据TechCrunch报道,这一功能作为研究预览提供给API用户/订阅者,并且在知识工作者的“现场导向”改进方面取得了进展,例如上下文长度的扩展(100万标记)和PowerPoint中的侧面板集成。


在像APEX-Agents这样的“多步骤推进”“中途修正方针”“整理成果物”类型的任务中,分工、重试和自我检查比单次的聪明才智更有效。TechCrunch也提到了Opus 4.6的“agentic features(代理功能)”可能在多步骤问题上有所帮助。


然而,这里重要的是“30%”这个数字的意义。距离100%还很远。这不是说律师下周就会失业。TechCrunch对此也进行了警告。但同时,“安全的断言”依据也变得薄弱。职业的替代不是零或百的过程。首先是从“可以削减的工作”开始削减。



在替代之前会发生的事情:法务工作的“分解”

将法律工作分解后,可以看到AI容易介入的部分。

  • 初稿:合同模板、条款建议、风险点识别

  • 研究辅助:论点整理、法律法规、判例和指导的初步判断

  • 比较与总结:对方修正的差异说明、谈判论点的列表化

  • 标准化处理:常见查询的回答建议、符合公司规则的模板化


这些工作即使需要“最终责任”或“判断”,大部分作业仍然是探索、整理和文本化。如果代理能够以低成本快速完成这些工作,法律事务所或企业法务的成本结构将发生变化。


另一方面,证言和情感的处理、与当事人的信任关系、价值判断的冲突等仅靠文本生成难以替代的部分仍然存在。换句话说,法务更可能是“形态改变”而非“全部消失”。



SNS的反应:期待与冷水同时喷发

对于此次话题,SNS(论坛和社区)的反应大致分为三个温度区间。


1) “作为辅助工具已经很方便。但没有监督是危险的”

在Reddit的法律社区中,一位自称现役律师的用户表示,“某些任务变得轻松,但存在幻觉和概念理解的缺陷,需要专家监督”,并将未来的定位描述为“下一代Westlaw(法律研究平台)”。虽然对完全自主替代持怀疑态度,但作为工具的普及已成为前提。


2) “法庭或刑事是不可能的。社会不会接受”

在法律社区的另一个帖子中,有人对刑事辩护的背景表示,“很难想象AI在程序的微妙判断中承担个案责任”,“让AI决定有罪/量刑是反乌托邦”。这里不仅涉及能力问题,还有正当性、透明性和人类接受的问题。


3) “谁来承担责任?合同和治理将成为瓶颈”

在Hacker News上,关于AI代理的责任归属、合同中的界定方式、SaaS的不确定性等“合同与责任分界”的讨论引发了热议。谁出售了有缺陷的产品,如何在合同中处理SaaS的不确定性——随着性能的提高,法务作为“使用AI的一方的法务”的需求也在增加,这是一种讽刺的局面。


此外,法律AI公司Harvey介绍说,Opus 4.6在其自家评估(BigLaw Bench)中获得了高分,并在实务任务(诉讼和交易领域)中展现了优势。这不是“研究分数”,而是“产品现场”的热情反应。



“30%”真正可怕的原因

那么,为什么即使是30%左右的分数也可能成为“威胁”?原因有两个。


第一个原因是,得分的领域偏向。法律工作中有些部分比起困难的判断,更偏向于标准化处理。即使只有这些部分被自动化,行业的招聘和培养结构(初级人员积累经验的场所)也会动摇。


第二个原因是,通过重试和分工接近实用领域。在APEX-Agents中,据说多次尝试的平均分数高于单次尝试。也就是说,随着“第一次可能出错”但“重试后能命中”类型能力的提升,人类的审查成本可以降低。


到此为止,讨论的中心不再是“律师是否会消失”。
“哪些工作会先变得便宜”,以及 “谁来监督,谁来承担责任” 将成为新的焦点。



即将发生的现实:法务的“AI前提化”

现实的未来图景可能是这样的。

  • 企业法务将通过AI进行合同审查和内部咨询的一次处理,律师将专注于例外处理和谈判

  • 法律事务所将提高调查和草拟的吞吐量,并重新审视价格体系(从固定成本到成果和价值)

  • “使用AI本身”的控制(日志、说明、审计、模型更新时的重新评估)将成为新的合规领域

  • 同时,责任分界、免责和保证的写法将得到完善,“AI时代的合同实务”将变得更加厚重


与其说AI会成为法律家,不如说法律家将以AI为前提重塑工作来得更快。APEX-Agents的分数上升是提前揭示这一现实的事件。



出处