¿Es realista el día en que la IA se presente en los tribunales? La seguridad de que "los abogados están a salvo" se tambalea en cuestión de semanas: la razón por la que el rendimiento de los agentes de IA ha aumentado.

¿Es realista el día en que la IA se presente en los tribunales? La seguridad de que "los abogados están a salvo" se tambalea en cuestión de semanas: la razón por la que el rendimiento de los agentes de IA ha aumentado.

"Nunca llegará el día en que la IA se convierta en abogado"—hasta hace poco, había una atmósfera de certeza al respecto. La razón era simple: cuando se le asignaban tareas cercanas a la "práctica" profesional, la IA no obtenía los resultados esperados. Sin embargo, esa atmósfera se tambaleó en cuestión de semanas.


TechCrunch destacó el cambio en el ranking de "APEX-Agents", la evaluación de agentes de IA publicada por Mercor. Hasta el mes pasado, los resultados de los principales laboratorios eran generalmente inferiores al 25%, lo que sugería que "al menos por ahora, los abogados estaban a salvo". Pero esta semana, Opus 4.6 de Anthropic sacudió la tabla de posiciones, alcanzando casi un 30% en un solo intento y un promedio de alrededor del 45% con más intentos. Aunque las cifras aún no son "aprobatorias", el aumento es notable. Brendan Foody, CEO de Mercor, calificó el rápido ascenso en tan poco tiempo como "increíble".



¿Qué mide "APEX-Agents"?

Lo interesante de APEX-Agents es que no es simplemente una prueba de conocimientos, sino que intenta medir cuánto pueden completar los agentes en un entorno que simula la "práctica de alto valor de los trabajadores de cuello blanco", como analistas de banca de inversión, consultores y abogados corporativos. Según Mercor, se requiere el uso de múltiples aplicaciones, planes a largo plazo, conocimientos especializados y razonamiento, con 480 tareas y criterios de evaluación en 33 "mundos". Además, han hecho públicos los datos y el sistema para ejecutar las evaluaciones (Archipelago). En resumen, la idea es crear un "entorno realista" en lugar de "problemas realistas" y cuantificar la capacidad de ejecución en ese entorno.


Este enfoque de diseño es compatible con el ámbito legal. El trabajo legal implica conectar materiales dispersos como leyes, jurisprudencia, políticas internas, términos contractuales y circunstancias de las partes, para llegar a conclusiones y documentos coherentes. Además, los documentos no son homogéneos. Los documentos internos, correos electrónicos, chats y leyes externas y guías influyen simultáneamente. Como TechCrunch señaló en un artículo del mes pasado, los modelos tienden a tropezar con la "búsqueda e integración de información a través de múltiples dominios".



¿Por qué el puntaje de Opus 4.6 aumentó?

La clave para explicar este rápido aumento es el "agent teams" (equipos de agentes) introducido por Anthropic en Opus 4.6. En lugar de que un solo agente realice las tareas en secuencia, varios agentes dividen las responsabilidades y avanzan en paralelo, imitando el trabajo en equipo humano. Según TechCrunch, esta función se ofrece como una vista previa de investigación para usuarios de API/suscriptores, y se han realizado mejoras "orientadas al campo" para trabajadores del conocimiento, como la ampliación del contexto (1 millón de tokens) y la integración de paneles laterales en PowerPoint.


En tareas como las de APEX-Agents, que avanzan en múltiples pasos, requieren ajustes de estrategia a mitad de camino y la organización de los resultados, la división del trabajo, la reintento y la autoevaluación son más efectivas que la inteligencia en un solo intento. TechCrunch también menciona que las "agentic features" (características de agente) de Opus 4.6 podrían haber sido útiles en problemas de múltiples pasos.


Sin embargo, lo importante aquí es el significado del número "30%". Está lejos del 100%. No es que los abogados vayan a perder sus empleos la próxima semana. TechCrunch también advierte sobre esto. Pero al mismo tiempo, la base para afirmar que "es seguro" también se ha debilitado. La sustitución de profesiones no avanza de cero a cien. Primero se eliminan las tareas "recortables".



Lo que ocurrirá antes de la sustitución: la "descomposición" del trabajo legal

Al descomponer el trabajo legal, se pueden identificar áreas donde la IA puede tener un impacto significativo.

  • Borrador inicial: plantillas de contratos, propuestas de cláusulas, identificación de áreas de riesgo

  • Asistencia en investigación: organización de puntos clave, identificación de leyes, jurisprudencia y guías

  • Comparación y resumen: explicación de diferencias en enmiendas del oponente, listado de puntos de negociación

  • Respuestas estándar: propuestas de respuesta a consultas comunes, plantillas alineadas con reglas internas


Aunque estas tareas requieren "responsabilidad final" o "juicio", la mayor parte del trabajo consiste en exploración, organización y redacción. Si los agentes pueden realizar estas tareas de manera rápida y económica, la estructura de costos de los bufetes de abogados y los departamentos legales corporativos cambiará.


Por otro lado, el manejo de testimonios y emociones, la relación de confianza con las partes, y los conflictos de juicio de valor son áreas donde la generación de texto por sí sola no es suficiente. En otras palabras, es más realista que el trabajo legal "cambie de forma" en lugar de "desaparecer por completo".



Reacciones en redes sociales: expectativas y escepticismo simultáneos

Las reacciones en redes sociales (foros y comunidades) sobre este tema se dividen en tres categorías principales.


1) "Ya es útil como herramienta de apoyo. Pero es peligroso sin supervisión"

En la comunidad de derecho de Reddit, un usuario que se identifica como abogado en ejercicio menciona que "facilita ciertas tareas, pero presenta alucinaciones y falta de comprensión conceptual, por lo que se necesita supervisión de expertos", sugiriendo que podría convertirse en una especie de "Westlaw de próxima generación" (plataforma de investigación legal). Aunque es escéptico sobre la sustitución total, hay una aceptación implícita de su uso como herramienta.


2) "Es imposible en tribunales o casos penales. La sociedad no lo aceptará"

En otro hilo de la comunidad legal, en el contexto de la defensa penal, se observa la reacción de que "es difícil imaginar que la IA tome decisiones sutiles de procedimiento caso por caso" y que "sería distópico que la IA decidiera la culpabilidad o la sentencia". Aquí, más allá de la capacidad, están en juego cuestiones de legitimidad, transparencia y aceptación humana.


3) "¿Quién asumirá la responsabilidad? Los contratos y la gobernanza serán el cuello de botella"

En Hacker News, se está discutiendo intensamente sobre quién asumirá la responsabilidad: el vendedor del agente de IA, el proveedor del modelo base o el cliente, en relación con la "delimitación de responsabilidades y contratos". ¿Quién vendió el producto defectuoso? ¿Cómo se gestionan las incertidumbres del SaaS en los contratos? A medida que mejora el rendimiento, la demanda de servicios legales para "el uso de IA" aumenta, lo que crea una situación irónica.


Además, la empresa de IA legal Harvey ha destacado que Opus 4.6 obtuvo una alta puntuación en su propia evaluación (BigLaw Bench), mostrando fortalezas en tareas prácticas (litigios y transacciones). Esto refleja una respuesta que muestra el entusiasmo del "campo del producto" en lugar de "puntuaciones de investigación".



La verdadera razón por la que el "30%" es preocupante

Entonces, ¿por qué un puntaje de alrededor del 30% puede ser una "amenaza"? Hay dos razones.


La primera es que las áreas donde se obtienen puntos están sesgadas. Dentro del trabajo legal, hay partes con más procesamiento rutinario que decisiones difíciles. Incluso si solo se automatizan esas áreas, la estructura de contratación y formación de la industria (donde los juniors adquieren experiencia) se verá afectada.


La segunda es que la reintento y la división del trabajo acercan a la practicidad. En APEX-Agents, se dice que el promedio mejora con múltiples intentos en lugar de un solo intento. En otras palabras, a medida que se desarrolla la capacidad de "fallar al principio pero acertar al repetir", se puede reducir el costo de revisión humana.


Llegados a este punto, el centro del debate no es si "los abogados desaparecerán".
Se traslada a "qué trabajo se abaratará primero" y "quién supervisará y quién asumirá la responsabilidad".



La realidad que probablemente ocurrirá: la "IA como premisa" en el ámbito legal

El futuro realista probablemente sea así.

  • Los departamentos legales corporativos preprocesarán las revisiones de contratos y las consultas internas con IA, y los abogados se centrarán en el manejo de excepciones y negociaciones

  • Los bufetes de abogados aumentarán el rendimiento de la investigación y los borradores, revisando la estructura de precios (de costos fijos a resultados y valor)

  • El control del "uso de la IA" en sí mismo (registros, explicaciones, auditorías, reevaluación al actualizar modelos) se convertirá en un nuevo ámbito de cumplimiento

  • Y la redacción de la delimitación de responsabilidades, exenciones y garantías se perfeccionará, y la "práctica contractual en la era de la IA" se ampliará


Es más probable que los abogados reestructuren su trabajo asumiendo la IA como premisa que la IA se convierta en abogado. El aumento en las puntuaciones de APEX-Agents fue un evento que adelantó esa realidad.



Fuentes

  • TechCrunch (06/02/2026) "Maybe AI agents can be lawyers after all": Artículo principal sobre el aumento de puntaje de Opus 4.6 en APEX-Agents


    https://techcrunch.com/2026/02/06/maybe-ai-agents-can-be-lawyers-after-all/

  • Mercor "The APEX-Agents leaderboard": Diseño de APEX-Agents (33 mundos/480 tareas) y lista de puntuaciones (29.8% para Opus 4.6, etc.)


    https://www.mercor.com/apex/apex-agents-leaderboard/

  • TechCrunch (05/02/2026) "Anthropic releases Opus 4.6 with new ‘agent teams’": Explicación de características como agent teams, contexto de 1 millón de tokens, integración en PowerPoint


    https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/

  • TechCrunch (22/01/2026) "Are AI agents ready for the workplace? A new benchmark raises doubts": Contexto de APEX-Agents y "dificultades" del mes pasado


    https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/

  • Reddit r/LawSchool "AI and the future": Ejemplo de reacción desde la perspectiva de un abogado en ejercicio sobre "la utilidad del apoyo, pero la necesidad de supervisión"


    https://www.reddit.com/r/LawSchool/comments/1qvryim/ai_and_the_future/

  • Reddit r/Lawyertalk "According to bill gates, lawyers will be fully replaced by AI by 2030": Ejemplo de escepticismo sobre la sustitución en el ámbito penal y judicial y la aceptación social


    https://www.reddit.com/r/Lawyertalk/comments/1kra6io/according_to_bill_gates_lawyers_will_be_fully/

  • Hacker News "Legal Contracts Built for AI Agents": Ejemplo de discusión sobre la responsabilidad de los agentes de IA, la gestión en contratos y la incertidumbre del SaaS


    https://news.ycombinator.com/item?id=45515640

  • Harvey (blog) "Opus 4.6, Now Live in Harvey": Ejemplo de reacción desde el campo legal sobre "alta puntuación en evaluación práctica"


    https://www.harvey.ai/blog/opus-4-6-now-live-in-harvey