AIが法廷に立つ日が現実に? “弁護士は安泰”が、たった数週間で揺らいだ — AIエージェントの成績が跳ねた理由

AIが法廷に立つ日が現実に? “弁護士は安泰”が、たった数週間で揺らいだ — AIエージェントの成績が跳ねた理由

「AIが弁護士になる日なんて来ない」——少し前まで、そんな確信めいた空気があった。理由は単純で、専門職の“実務”に近い課題を与えると、AIが思ったほど点を取れなかったからだ。ところが、その空気がたった数週間で揺らいだ。


TechCrunchが取り上げたのは、Mercorが公開するAIエージェント評価「APEX-Agents」のランキング変動である。先月時点では主要ラボの成績が概ね25%未満と低調で、「少なくとも当面は法律家は安全そうだ」という見立ても成り立っていた。だが今週、AnthropicのOpus 4.6が順位表をかき回し、ワンショットで約30%近く、試行回数を増やすと平均45%程度まで上がったという。数字はまだ“合格”とは言い難いが、伸び幅が強烈だ。Mercor CEOのBrendan Foodyも、短期間での急伸を「とんでもない」と評している。



「APEX-Agents」は何を測っているのか

APEX-Agentsが面白いのは、単なる知識テストではなく、投資銀行アナリスト、コンサル、企業法務といった“高単価ホワイトカラーの実務”を模した環境で、エージェントがどれだけ仕事をやり切れるかを測ろうとしている点だ。Mercorの説明では、複数アプリの利用、長い計画、専門知識、推論が必要で、33の“世界”に480タスクと採点基準がある。さらにデータや評価実行のための仕組み(Archipelago)も含めて公開している。要するに「それっぽい問題」ではなく「それっぽい現場」を作り、そこでの遂行力を点数化する発想である。


この設計思想が、法律領域と相性がいい。法務の仕事は、条文・判例・社内ポリシー・契約文言・当事者事情など、散らばった材料をつなぎ合わせ、筋の通った結論と文章に落とす作業の連続だ。しかも、資料は一枚岩ではない。社内文書、メール、チャット、外部の法令・ガイダンスが同時に効いてくる。TechCrunchが先月の記事で紹介したように、モデルが躓きやすいのは“複数ドメインにまたがる情報探索と統合”だった。



なぜOpus 4.6でスコアが跳ねたのか

今回の急伸を語るうえで鍵になるのが、AnthropicがOpus 4.6で打ち出した「agent teams(エージェントチーム)」だ。ひとりのエージェントが順番に作業するのではなく、複数のエージェントが担当を分け、並列に進めて調整する——人間のチーム作業を模した設計である。TechCrunchによれば、この機能はAPIユーザー/購読者向けに研究プレビューとして提供され、さらにコンテキスト長の拡大(100万トークン)や、PowerPoint内でのサイドパネル統合など、知識労働者向けの“現場寄り”改善が進んだ。


APEX-Agentsのような「複数ステップで進む」「途中で方針を修正する」「成果物を整える」タイプの課題では、単発の賢さよりも、分業・再試行・自己チェックが効く。TechCrunchも、Opus 4.6の“agentic features(エージェント的機能)”がマルチステップ問題で助けになった可能性に触れている。


ただし、ここで重要なのは「30%」という数字の意味だ。100%には遠い。来週いきなり弁護士が失業する、という話ではない。TechCrunchもそこは釘を刺している。だが同時に、「安全だと断言する」根拠も弱くなった。職業の置き換えは、ゼロか百かでは進まない。まずは“削れる仕事”から削れていく。



置き換えより先に起きること:法務の仕事の“分解”

法律の仕事を分解すると、AIが刺さりやすい箇所が見えてくる。

  • 一次ドラフト:契約の雛形、条項案、リスク箇所の洗い出し

  • リサーチ補助:論点整理、法令・判例・ガイダンスの当たりを付ける

  • 比較・要約:相手方修正の差分説明、交渉論点の一覧化

  • 定型対応:よくある問い合わせの回答案、社内ルールに沿ったテンプレ化


これらは“最終責任”や“判断”が必要でも、作業の大半は探索・整理・文章化で占められる。もしエージェントがここを安く速く回せるなら、法律事務所や企業法務のコスト構造は変わる。


一方で、証言や感情の扱い、当事者との信頼関係、価値判断のぶつかり合いのように、文章生成だけでは代替しにくい部分も残る。つまり、法務は「全部が消える」より「形が変わる」のが現実的だ。



SNSの反応:期待と冷水の同時噴出

今回の話題に対するSNS(掲示板・コミュニティ)の反応は、概ね3つの温度帯に分かれる。


1) 「補助ツールとしては既に便利。だが監督なしは危険」

Redditの法学系コミュニティでは、現役弁護士を名乗る投稿者が「一定のタスクは楽にするが、幻覚や概念理解の欠落があり、専門家の監督が必要」と述べ、将来像として“次世代Westlaw(リーガルリサーチ基盤)”のような位置づけを挙げている。完全自律での置き換えには懐疑的だが、道具としての浸透は前提になっている空気がある。


2) 「法廷や刑事は無理。社会が受け入れない」

法律家コミュニティの別スレッドでは、刑事弁護の文脈で「手続の微妙な判断をAIがケースバイケースで担うのは想像しにくい」「AIが有罪/量刑を決めるのはディストピア」という反応が見られる。ここには能力以前に、正当性・透明性・人間の納得の問題が横たわる。


3) 「責任は誰が取る?契約とガバナンスがボトルネックになる」

Hacker Newsでは、AIエージェントを売った側・基盤モデル提供者・顧客のどこが責任を負うのか、という“契約・責任分界”の議論が盛り上がっている。壊れた製品を売ったのは誰か、SaaSの不確実性を契約でどう切るか——性能が上がるほど、法務は“AIを使う側の法務”として需要が増えるという皮肉な構図も見える。


加えて、リーガルAI企業Harveyは、Opus 4.6を自社の評価(BigLaw Bench)で高得点だと紹介し、実務寄りタスク(訴訟・取引領域)で強みが出たと発信している。これは「研究の点数」ではなく「プロダクト現場」の熱量を示す反応と言える。



「30%」が怖い本当の理由

では、なぜ30%程度のスコアでも“脅威”になり得るのか。理由は2つある。


1つ目は、点が取れる領域が偏ることだ。法律業務の中には、難しい判断よりも定型処理が多い部分がある。そこだけ自動化されても、業界の採用・育成の構造(ジュニアが経験を積む場)が揺れる。


2つ目は、再試行と分業で実用域に近づくことだ。APEX-Agentsでも、ワンショットより複数回試行で平均が上がるとされる。つまり「最初は外す」が「やり直すと当てる」タイプの能力が育つほど、人間のレビューコストを下げられる。


ここまでくると、議論の中心は「弁護士が消えるか」ではない。
“どの仕事が先に安くなるか”、そして “誰が監督し、誰が責任を負うか” に移っていく。



これから起きそうな現実:法務の“AI前提化”

現実的な未来像は、おそらくこうだ。

  • 企業法務は、契約レビューや社内相談の一次対応をAIで前処理し、弁護士は例外処理と交渉に寄る

  • 法律事務所は、調査・ドラフトのスループットを上げて、価格体系(固定費→成果・価値)を見直す

  • 「AIを使うこと」自体の統制(ログ、説明、監査、モデル更新時の再評価)が新しいコンプライアンス領域になる

  • そして、責任分界・免責・保証の書き方が洗練され、“AI時代の契約実務”が厚くなる


AIが法律家になるかどうかより、法律家がAIを前提に仕事を作り替えるほうが早い。APEX-Agentsの点数上昇は、その現実を前倒しで突きつけた出来事だった。



出典