AI ขึ้นศาลเป็นจริงได้หรือไม่? "ทนายความมั่นคง" สั่นคลอนในเวลาเพียงไม่กี่สัปดาห์ — เหตุผลที่ผลการทำงานของ AI เอเจนต์พุ่งสูงขึ้น

AI ขึ้นศาลเป็นจริงได้หรือไม่? "ทนายความมั่นคง" สั่นคลอนในเวลาเพียงไม่กี่สัปดาห์ — เหตุผลที่ผลการทำงานของ AI เอเจนต์พุ่งสูงขึ้น

"AI จะไม่มีวันเป็นทนายความ" — จนกระทั่งเมื่อไม่นานมานี้ ความเชื่อมั่นนี้ยังคงมีอยู่ เหตุผลนั้นง่ายมาก เมื่อให้ AI ทำงานที่ใกล้เคียงกับ "การปฏิบัติจริง" ของวิชาชีพเฉพาะทาง มันไม่สามารถทำคะแนนได้ดีเท่าที่คาดหวัง แต่บรรยากาศนี้ก็สั่นคลอนภายในไม่กี่สัปดาห์


TechCrunch ได้กล่าวถึงการเปลี่ยนแปลงในอันดับของ "APEX-Agents" ซึ่งเป็นการประเมิน AI เอเจนต์ที่เผยแพร่โดย Mercor ในเดือนที่แล้ว ผลงานของห้องปฏิบัติการหลักส่วนใหญ่ต่ำกว่า 25% ซึ่งทำให้มีการคาดการณ์ว่า "อย่างน้อยในระยะสั้น ทนายความยังคงปลอดภัย" แต่ในสัปดาห์นี้ Opus 4.6 ของ Anthropic ได้เปลี่ยนแปลงตารางอันดับ โดยสามารถทำคะแนนได้ประมาณ 30% ในการทดลองครั้งเดียว และเพิ่มขึ้นเฉลี่ย 45% เมื่อเพิ่มจำนวนการทดลอง แม้ว่าตัวเลขยังไม่ถึง "ผ่าน" แต่การเติบโตนั้นน่าทึ่ง CEO ของ Mercor, Brendan Foody ก็ได้กล่าวถึงการเติบโตอย่างรวดเร็วในช่วงเวลาสั้น ๆ ว่า "น่าทึ่ง"



"APEX-Agents" วัดอะไร

สิ่งที่น่าสนใจเกี่ยวกับ APEX-Agents คือมันไม่ได้เป็นเพียงการทดสอบความรู้ แต่พยายามวัดว่าเอเจนต์สามารถทำงานในสภาพแวดล้อมที่เลียนแบบ "งานปฏิบัติจริงของคนทำงานขาวที่มีรายได้สูง" เช่น นักวิเคราะห์ธนาคารการลงทุน ที่ปรึกษา และกฎหมายองค์กรได้ดีเพียงใด ตามที่ Mercor อธิบาย การทดสอบต้องใช้แอปพลิเคชันหลายตัว แผนยาว ความรู้เฉพาะทาง และการอนุมาน มี 33 "โลก" และ 480 งานพร้อมเกณฑ์การให้คะแนน นอกจากนี้ยังมีการเปิดเผยข้อมูลและโครงสร้างสำหรับการประเมิน (Archipelago) สรุปคือ มันไม่ได้สร้าง "ปัญหาที่ดูเหมือนจริง" แต่สร้าง "สภาพแวดล้อมที่ดูเหมือนจริง" และให้คะแนนความสามารถในการดำเนินการในสภาพแวดล้อมนั้น


แนวคิดการออกแบบนี้เข้ากันได้ดีกับด้านกฎหมาย งานกฎหมายเป็นกระบวนการที่ต้องเชื่อมโยงวัสดุที่กระจัดกระจาย เช่น ข้อกฎหมาย คำพิพากษา นโยบายภายใน ข้อความสัญญา และสถานการณ์ของคู่กรณี เพื่อสร้างข้อสรุปที่มีเหตุผลและเอกสารที่เป็นลายลักษณ์อักษร นอกจากนี้ เอกสารไม่ได้เป็นเอกภาพ มีเอกสารภายใน อีเมล แชท และกฎหมายหรือคำแนะนำภายนอกที่มีผลในเวลาเดียวกัน ตามที่ TechCrunch รายงานในบทความเมื่อเดือนที่แล้ว โมเดลมีแนวโน้มที่จะสะดุดเมื่อมี "การค้นหาและบูรณาการข้อมูลข้ามโดเมนหลาย ๆ โดเมน"



ทำไมคะแนนของ Opus 4.6 ถึงพุ่งขึ้น

กุญแจสำคัญในการพูดถึงการเติบโตอย่างรวดเร็วในครั้งนี้คือ "agent teams" ที่ Anthropic เปิดตัวใน Opus 4.6 แทนที่จะให้เอเจนต์คนเดียวทำงานตามลำดับ เอเจนต์หลายคนแบ่งหน้าที่และทำงานพร้อมกัน — การออกแบบที่เลียนแบบการทำงานเป็นทีมของมนุษย์ ตามที่ TechCrunch รายงาน ฟีเจอร์นี้ถูกนำเสนอเป็นการพรีวิวการวิจัยสำหรับผู้ใช้ API/สมาชิก และมีการปรับปรุงที่ใกล้เคียงกับ "สถานที่ทำงาน" สำหรับผู้ทำงานด้านความรู้ เช่น การขยายความยาวของบริบท (1 ล้านโทเค็น) และการรวมเข้ากับ PowerPoint


ในงานประเภทที่ "ดำเนินการหลายขั้นตอน" "แก้ไขแนวทางระหว่างทาง" และ "จัดระเบียบผลลัพธ์" เช่น APEX-Agents การแบ่งงาน การลองใหม่ และการตรวจสอบตนเองมีประสิทธิภาพมากกว่าความฉลาดเพียงครั้งเดียว TechCrunch ยังได้กล่าวถึงความเป็นไปได้ที่ "agentic features" ของ Opus 4.6 ช่วยในปัญหาหลายขั้นตอน


อย่างไรก็ตาม สิ่งสำคัญที่นี่คือความหมายของตัวเลข "30%" ซึ่งยังห่างไกลจาก 100% ไม่ใช่ว่าทนายความจะตกงานในสัปดาห์หน้า TechCrunch ก็ได้เตือนในจุดนี้เช่นกัน แต่ในขณะเดียวกัน เหตุผลที่ว่า "ปลอดภัย" ก็อ่อนแอลง การแทนที่อาชีพไม่ได้เกิดขึ้นในลักษณะศูนย์หรือร้อย มันเริ่มจากงานที่ "สามารถลดได้" ก่อน



สิ่งที่จะเกิดขึ้นก่อนการแทนที่: การ "แยกส่วน" ของงานกฎหมาย

เมื่อแยกงานกฎหมายออก จะเห็นได้ว่ามีจุดที่ AI สามารถเข้ามาได้ง่าย

  • ร่างแรก: แบบฟอร์มสัญญา ข้อเสนอข้อกำหนด การระบุจุดเสี่ยง

  • การช่วยในการวิจัย: การจัดระเบียบประเด็น การระบุข้อกฎหมาย คำพิพากษา และคำแนะนำ

  • การเปรียบเทียบและสรุป: การอธิบายความแตกต่างของการแก้ไขจากฝ่ายตรงข้าม การจัดทำรายการประเด็นการเจรจา

  • การตอบสนองแบบมาตรฐาน: การเสนอคำตอบสำหรับคำถามที่พบบ่อย การสร้างแม่แบบตามกฎภายใน


แม้ว่าจะต้องการ "ความรับผิดชอบสุดท้าย" หรือ "การตัดสินใจ" ส่วนใหญ่ของงานเหล่านี้ถูกครอบครองโดยการสำรวจ การจัดระเบียบ และการเขียน หากเอเจนต์สามารถทำงานเหล่านี้ได้อย่างรวดเร็วและราคาถูก โครงสร้างต้นทุนของสำนักงานกฎหมายหรือกฎหมายองค์กรจะเปลี่ยนไป


ในทางกลับกัน การจัดการคำให้การและอารมณ์ ความสัมพันธ์ที่เชื่อถือได้กับคู่กรณี การปะทะกันของการตัดสินค่า เป็นส่วนที่ยังคงยากที่จะทดแทนด้วยการสร้างข้อความเพียงอย่างเดียว กล่าวคือ กฎหมายมีแนวโน้มที่จะ "เปลี่ยนรูปแบบ" มากกว่า "หายไปทั้งหมด"



ปฏิกิริยาบนโซเชียลมีเดีย: ความคาดหวังและความเย็นชาเกิดขึ้นพร้อมกัน

ปฏิกิริยาต่อหัวข้อนี้บนโซเชียลมีเดีย (กระดานสนทนาและชุมชน) แบ่งออกเป็นสามระดับความร้อน


1) "เป็นเครื่องมือช่วยที่มีประโยชน์อยู่แล้ว แต่ไม่มีการควบคุมเป็นอันตราย"

ในชุมชนกฎหมายบน Reddit มีผู้ใช้ที่อ้างว่าเป็นทนายความปัจจุบันกล่าวว่า "ทำให้บางงานง่ายขึ้น แต่มีภาพหลอนและขาดความเข้าใจในแนวคิด จำเป็นต้องมีการควบคุมจากผู้เชี่ยวชาญ" และยกตัวอย่างอนาคตว่าเป็น "Westlaw รุ่นถัดไป (แพลตฟอร์มการวิจัยทางกฎหมาย)" แม้จะสงสัยเกี่ยวกับการแทนที่โดยอัตโนมัติอย่างสมบูรณ์ แต่ก็มีบรรยากาศที่การใช้เครื่องมือเป็นที่ยอมรับ


2) "ไม่สามารถใช้ในศาลหรือคดีอาญาได้ สังคมไม่ยอมรับ"

ในกระทู้แยกของชุมชนกฎหมาย มีปฏิกิริยาในบริบทของการป้องกันคดีอาญาว่า "ยากที่จะจินตนาการว่า AI จะรับผิดชอบการตัดสินใจที่ละเอียดอ่อนของกระบวนการในแต่ละกรณี" และ "การให้ AI ตัดสินความผิด/โทษเป็นเรื่องดิสโทเปีย" ที่นี่มีปัญหาเรื่องความถูกต้อง ความโปร่งใส และการยอมรับของมนุษย์มาก่อนความสามารถ


3) "ใครจะรับผิดชอบ? สัญญาและการกำกับดูแลจะเป็นคอขวด"

ใน Hacker News มีการอภิปรายเกี่ยวกับ "การแบ่งแยกความรับผิดชอบในสัญญา" ว่าใครจะรับผิดชอบระหว่างผู้ขายเอเจนต์ AI ผู้ให้บริการโมเดลพื้นฐาน และลูกค้า — ใครขายผลิตภัณฑ์ที่เสียหาย และจะตัดความไม่แน่นอนของ SaaS ในสัญญาอย่างไร — ยิ่งประสิทธิภาพสูงขึ้นเท่าไร กฎหมายก็จะมีความต้องการในฐานะ "กฎหมายของผู้ใช้ AI" มากขึ้น


นอกจากนี้ บริษัท AI ด้านกฎหมาย Harvey ได้แนะนำว่า Opus 4.6 ได้คะแนนสูงในประเมินของตนเอง (BigLaw Bench) และแสดงความแข็งแกร่งในงานที่ใกล้เคียงกับการปฏิบัติจริง (ด้านการฟ้องร้องและการทำธุรกรรม) นี่เป็นปฏิกิริยาที่แสดงถึง "ความร้อนแรงในสถานที่ทำงาน" มากกว่า "คะแนนการวิจัย"



เหตุผลที่แท้จริงที่ "30%" น่ากลัว

แล้วทำไมคะแนนประมาณ 30% ถึงยังคงเป็น "ภัยคุกคาม" ได้ มีสองเหตุผล


เหตุผลแรกคือ การที่คะแนนสามารถทำได้ในบางพื้นที่ ในงานกฎหมายบางส่วนมีการประมวลผลที่เป็นแบบแผนมากกว่าการตัดสินใจที่ยาก หากอัตโนมัติเฉพาะส่วนนั้น โครงสร้างการจ้างงานและการพัฒนาของอุตสาหกรรม (ที่ที่จูเนียร์ได้รับประสบการณ์) จะสั่นคลอน


เหตุผลที่สองคือ การลองใหม่และการแบ่งงานทำให้ใกล้เคียงกับการใช้งานจริง ใน APEX-Agents ก็มีการกล่าวว่าค่าเฉลี่ยจะเพิ่มขึ้นเมื่อมีการทดลองหลายครั้งมากกว่าครั้งเดียว กล่าวคือ "ครั้งแรกอาจพลาด" แต่ "เมื่อทำใหม่จะถูกต้อง" ความสามารถนี้จะลดต้นทุนการตรวจสอบของมนุษย์ได้มากขึ้น


เมื่อมาถึงจุดนี้ ศูนย์กลางของการอภิปรายไม่ใช่ "ทนายความจะหายไปหรือไม่"
แต่เป็น "งานใดจะถูกลดราคาก่อน" และ "ใครจะควบคุมและใครจะรับผิดชอบ"



ความจริงที่อาจเกิดขึ้น: การทำงานของกฎหมายที่ "มี AI เป็นพื้นฐาน"

ภาพอนาคตที่เป็นไปได้อาจเป็นดังนี้

  • กฎหมายองค์กรจะใช้ AI ในการจัดการเบื้องต้นของการตรวจสอบสัญญาและการให้คำปรึกษาภายใน และทนายความจะมุ่งเน้นไปที่การจัดการข้อยกเว้นและการเจรจา

  • สำนักงานกฎหมายจะเพิ่มประสิทธิภาพในการวิจัยและร่างเอกสาร และปรับโครงสร้างราคาจากต้นทุนคงที่ไปสู่ผลลัพธ์และคุณค่า

  • การควบคุม "การใช้ AI" เอง (บันทึก การอธิบาย การตรวจสอบ การประเมินใหม่เมื่อมีการอัปเดตโมเดล) จะกลายเป็นพื้นที่ใหม่ของการปฏิบัติตามกฎระเบียบ

  • และการเขียนการแบ่งแยกความรับผิดชอบ การยกเว้น และการรับประกันจะถูกปรับปรุงให้ดีขึ้น และ "การปฏิบัติทางกฎหมายในยุค AI" จะมีความหนามากขึ้น


การที่ AI จะกลายเป็นทนายความหรือไม่ไม่สำคัญเท่ากับ การที่ทนายความจะปรับเปลี่ยนงานของตนโดยมี AI เป็นพื้นฐาน การเพิ่มขึ้นของคะแนน APEX-Agents เป็นเหตุการณ์ที่แสดงให้เห็นถึงความเป็นจริงนี้ล่วงหน้า



แหล่งที่มา