AI가 법정에 서는 날이 현실로? “변호사는 안전하다”는 믿음이 단 몇 주 만에 흔들린 이유 — AI 에이전트의 성적이 급상승한 이유

AI가 법정에 서는 날이 현실로? “변호사는 안전하다”는 믿음이 단 몇 주 만에 흔들린 이유 — AI 에이전트의 성적이 급상승한 이유

「AI가 변호사가 되는 날은 오지 않을 것이다」——조금 전까지는 그런 확신에 찬 분위기가 있었다. 이유는 간단했다. 전문직의 “실무”에 가까운 과제를 주면, AI가 기대만큼 점수를 얻지 못했기 때문이다. 그런데 그 분위기가 단 몇 주 만에 흔들렸다.


TechCrunch가 다룬 것은 Mercor가 공개하는 AI 에이전트 평가 "APEX-Agents"의 랭킹 변동이다. 지난달 시점에서는 주요 연구소의 성적이 대체로 25% 미만으로 저조하여, "적어도 당분간은 법률가는 안전할 것 같다"는 견해도 성립되었다. 하지만 이번 주, Anthropic의 Opus 4.6이 순위표를 뒤흔들며, 원샷에서 약 30% 가까이, 시도 횟수를 늘리면 평균 45% 정도까지 올랐다고 한다. 숫자는 아직 "합격"이라고 하기 어렵지만, 성장 폭이 강렬하다. Mercor CEO인 Brendan Foody도, 단기간 내의 급성장을 "엄청나다"고 평가하고 있다.



「APEX-Agents」는 무엇을 측정하는가

APEX-Agents가 흥미로운 점은 단순한 지식 테스트가 아니라, 투자은행 분석가, 컨설턴트, 기업 법무 등 "고단가 화이트칼라의 실무"를 모방한 환경에서 에이전트가 얼마나 일을 해낼 수 있는지를 측정하려는 점이다. Mercor의 설명에 따르면, 여러 앱의 이용, 긴 계획, 전문 지식, 추론이 필요하며, 33개의 "세계"에 480개의 과제와 채점 기준이 있다. 게다가 데이터와 평가 실행을 위한 구조(Archipelago)도 포함하여 공개하고 있다. 요컨대 "그럴듯한 문제"가 아니라 "그럴듯한 현장"을 만들어, 그곳에서의 수행력을 점수화하는 발상이다.


이 설계 사상이 법률 영역과 잘 맞는다. 법무의 일은 조문, 판례, 사내 정책, 계약 문구, 당사자 사정 등 흩어진 자료를 연결하여 일관된 결론과 문장으로 떨어뜨리는 작업의 연속이다. 게다가 자료는 단일체가 아니다. 사내 문서, 이메일, 채팅, 외부의 법령·가이던스가 동시에 작용한다. TechCrunch가 지난달 기사에서 소개한 것처럼, 모델이 걸리기 쉬운 것은 "여러 도메인에 걸친 정보 탐색과 통합"이었다.



왜 Opus 4.6에서 점수가 뛰었는가

이번 급성장을 이야기하는 데 있어 열쇠가 되는 것은 Anthropic이 Opus 4.6에서 내세운 "agent teams(에이전트 팀)"이다. 한 명의 에이전트가 순서대로 작업하는 것이 아니라, 여러 에이전트가 담당을 나누어 병렬로 진행하고 조정하는——인간의 팀 작업을 모방한 설계이다. TechCrunch에 따르면, 이 기능은 API 사용자/구독자에게 연구 프리뷰로 제공되며, 더불어 컨텍스트 길이의 확대(100만 토큰)나 PowerPoint 내의 사이드 패널 통합 등, 지식 노동자에게 "현장에 가까운" 개선이 진행되었다.


APEX-Agents와 같은 "여러 단계로 진행되는", "중간에 방침을 수정하는", "성과물을 정리하는" 유형의 과제에서는, 단발의 지혜보다는 분업·재시도·자기 점검이 효과적이다. TechCrunch도 Opus 4.6의 "agentic features(에이전트적 기능)"가 다단계 문제에서 도움이 되었을 가능성에 대해 언급하고 있다.


하지만 여기서 중요한 것은 "30%"라는 숫자의 의미이다. 100%에는 멀다. 다음 주에 갑자기 변호사가 실직하는 이야기는 아니다. TechCrunch도 그 점을 강조하고 있다. 하지만 동시에, "안전하다고 단언할" 근거도 약해졌다. 직업의 대체는 제로에서 백으로 진행되지 않는다. 우선 "줄일 수 있는 일"부터 줄어든다.



대체보다 먼저 일어날 일: 법무의 일의 "분해"

법률의 일을 분해하면, AI가 쉽게 파고들 수 있는 부분이 보인다.

  • 1차 드래프트: 계약의 템플릿, 조항안, 리스크 부분의 도출

  • 리서치 보조: 논점 정리, 법령·판례·가이던스의 초점 맞추기

  • 비교·요약: 상대방 수정의 차이 설명, 협상 논점의 목록화

  • 정형 대응: 자주 있는 문의에 대한 답변안, 사내 규칙에 따른 템플릿화


이들은 "최종 책임"이나 "판단"이 필요해도, 작업의 대부분은 탐색·정리·문서화로 이루어진다. 만약 에이전트가 이를 저렴하고 빠르게 처리할 수 있다면, 법률 사무소나 기업 법무의 비용 구조는 변할 것이다.


한편, 증언이나 감정의 처리, 당사자와의 신뢰 관계, 가치 판단의 충돌처럼 문서 생성만으로는 대체하기 어려운 부분도 남는다. 즉, 법무는 "모두가 사라지는" 것보다 "형태가 바뀌는" 것이 현실적이다.



SNS의 반응: 기대와 냉수의 동시 분출

이번 화제에 대한 SNS(게시판·커뮤니티)의 반응은 대체로 3가지 온도대로 나뉜다.


1) 「보조 도구로서는 이미 편리하다. 그러나 감독 없이 위험하다」

Reddit의 법학계 커뮤니티에서는 현직 변호사를 자칭하는 게시자가 "일정한 작업은 쉽게 하지만, 환각이나 개념 이해의 결여가 있어 전문가의 감독이 필요하다"고 말하며, 미래상으로서 "차세대 Westlaw(리걸 리서치 기반)"와 같은 위치를 언급하고 있다. 완전 자율로의 대체에는 회의적이지만, 도구로서의 침투는 전제가 되어 있는 분위기가 있다.


2) 「법정이나 형사는 무리다. 사회가 받아들이지 않는다」

법률가 커뮤니티의 다른 스레드에서는 형사 변호의 맥락에서 "절차의 미묘한 판단을 AI가 케이스 바이 케이스로 맡는 것은 상상하기 어렵다", "AI가 유죄/양형을 결정하는 것은 디스토피아"라는 반응이 보인다. 여기에는 능력 이전에, 정당성·투명성·인간의 납득의 문제가 놓여 있다.


3) 「책임은 누가 질 것인가? 계약과 거버넌스가 병목이 될 것이다」

Hacker News에서는 AI 에이전트를 판매한 측·기반 모델 제공자·고객 중 누가 책임을 질 것인가라는 "계약·책임 분계"의 논의가 활발하다. 고장난 제품을 판매한 것은 누구인가, SaaS의 불확실성을 계약으로 어떻게 해결할 것인가——성능이 올라갈수록, 법무는 "AI를 사용하는 측의 법무"로서 수요가 증가하는 아이러니한 구조도 보인다.


덧붙여, 리걸 AI 기업 Harvey는 Opus 4.6을 자사의 평가(BigLaw Bench)에서 높은 점수라고 소개하며, 실무에 가까운 작업(소송·거래 영역)에서 강점이 드러났다고 발신하고 있다. 이는 "연구의 점수"가 아니라 "제품 현장"의 열기를 나타내는 반응이라고 할 수 있다.



「30%」가 무서운 진짜 이유

그렇다면 왜 30% 정도의 점수도 "위협"이 될 수 있는가. 이유는 두 가지가 있다.


첫 번째는, 점수를 얻을 수 있는 영역이 편중된다는 것이다. 법률 업무 중에는 어려운 판단보다도 정형 처리 부분이 많은 부분이 있다. 그 부분만 자동화되어도, 업계의 채용·육성 구조(주니어가 경험을 쌓는 장소)가 흔들린다.


두 번째는, 재시도와 분업으로 실용 영역에 가까워진다는 것이다. APEX-Agents에서도, 원샷보다 여러 번 시도하여 평균이 올라간다고 한다. 즉 "처음에는 빗나가지만" "다시 하면 맞추는" 유형의 능력이 성장할수록, 인간의 리뷰 비용을 줄일 수 있다.


여기까지 오면, 논의의 중심은 "변호사가 사라질 것인가"가 아니다.
“어떤 일이 먼저 저렴해질 것인가”, 그리고 “누가 감독하고, 누가 책임을 질 것인가”로 이동한다.



앞으로 일어날 것 같은 현실: 법무의 "AI 전제화"

현실적인 미래상은 아마도 이럴 것이다.

  • 기업 법무는 계약 리뷰나 사내 상담의 1차 대응을 AI로 전처리하고, 변호사는 예외 처리와 협상에 집중한다

  • 법률 사무소는 조사·드래프트의 처리량을 높이고, 가격 체계(고정비→성과·가치)를 재검토한다

  • "AI를 사용하는 것" 자체의 통제(로그, 설명, 감사, 모델 업데이트 시 재평가)가 새로운 컴플라이언스 영역이 된다

  • 그리고 책임 분계·면책·보증의 작성이 정교해지고, "AI 시대의 계약 실무"가 두꺼워진다


AI가 법률가가 될지보다, 법률가가 AI를 전제로 일을 재구성하는 것이 더 빠르다. APEX-Agents의 점수 상승은 그 현실을 앞당겨 보여준 사건이었다.



출처