Steht der Tag bevor, an dem KI vor Gericht steht? Die Sicherheit der Anwälte wurde innerhalb weniger Wochen erschüttert — Gründe für den sprunghaften Anstieg der Leistung von KI-Agenten

Steht der Tag bevor, an dem KI vor Gericht steht? Die Sicherheit der Anwälte wurde innerhalb weniger Wochen erschüttert — Gründe für den sprunghaften Anstieg der Leistung von KI-Agenten

„Ein Tag, an dem KI Anwalt wird, wird nie kommen“ – bis vor kurzem herrschte eine solche Überzeugung. Der Grund war einfach: Wenn man KI Aufgaben gab, die den „praktischen“ Aspekten eines Fachberufs nahe kamen, erzielte sie nicht die erwarteten Ergebnisse. Doch diese Überzeugung geriet innerhalb weniger Wochen ins Wanken.


TechCrunch berichtete über die Ranglistenveränderungen der von Mercor veröffentlichten KI-Agentenbewertung „APEX-Agents“. Noch im letzten Monat waren die Ergebnisse der wichtigsten Labors mit weniger als 25 % schwach, und es schien, als wären Juristen zumindest vorerst sicher. Doch in dieser Woche mischte Anthropic's Opus 4.6 die Rangliste auf und erreichte in einem Durchlauf fast 30 % und bei mehreren Versuchen durchschnittlich etwa 45 %. Die Zahlen sind zwar noch nicht als „bestehend“ zu bezeichnen, aber der Anstieg ist bemerkenswert. Mercor-CEO Brendan Foody bezeichnete den rasanten Anstieg in kurzer Zeit als „unglaublich“.



Was misst „APEX-Agents“?

Das Interessante an APEX-Agents ist, dass es nicht nur ein Wissenstest ist, sondern versucht zu messen, wie gut Agenten in einer Umgebung, die die „praktische Arbeit hochbezahlter Weißkollarberufe“ wie Investmentbanking-Analysten, Berater und Unternehmensjuristen simuliert, ihre Aufgaben erledigen können. Laut Mercor erfordert dies die Nutzung mehrerer Apps, lange Planungen, Fachwissen und Schlussfolgerungen, mit 33 „Welten“ und 480 Aufgaben und Bewertungskriterien. Zudem werden die Daten und das Bewertungssystem (Archipelago) ebenfalls veröffentlicht. Kurz gesagt, es geht darum, eine „realistische Umgebung“ zu schaffen und die Leistung dort zu bewerten.


Diese Designphilosophie passt gut zum Rechtsbereich. Die Arbeit in der Rechtsabteilung besteht darin, verstreute Materialien wie Gesetze, Präzedenzfälle, interne Richtlinien, Vertragsformulierungen und die Umstände der Parteien zu verbinden und in eine schlüssige Schlussfolgerung und einen Text zu bringen. Zudem sind die Materialien nicht homogen. Interne Dokumente, E-Mails, Chats und externe Gesetze und Richtlinien wirken gleichzeitig. Wie TechCrunch in einem Artikel letzten Monat berichtete, stolpern Modelle oft über „die Suche und Integration von Informationen über mehrere Domänen hinweg“.



Warum stieg die Punktzahl mit Opus 4.6?

Der Schlüssel zu diesem rasanten Anstieg liegt in den „agent teams“, die Anthropic mit Opus 4.6 eingeführt hat. Anstatt dass ein einzelner Agent die Aufgaben nacheinander erledigt, teilen mehrere Agenten die Aufgaben auf, arbeiten parallel und koordinieren sich – ein Design, das das Teamwork von Menschen nachahmt. Laut TechCrunch wird diese Funktion als Forschungsvorschau für API-Nutzer/Abonnenten bereitgestellt, und es wurden weitere „praxisnahe“ Verbesserungen für Wissensarbeiter vorgenommen, wie die Erweiterung der Kontextlänge (1 Million Tokens) und die Integration von Seitenleisten in PowerPoint.


Bei Aufgaben wie denen von APEX-Agents, die „in mehreren Schritten voranschreiten“, „den Kurs zwischendurch anpassen“ und „Ergebnisse organisieren“ erfordern, sind Arbeitsteilung, Wiederholungen und Selbstkontrolle effektiver als einmalige Intelligenz. TechCrunch weist auch darauf hin, dass die „agentic features“ von Opus 4.6 bei mehrstufigen Problemen hilfreich gewesen sein könnten.


Wichtig ist jedoch, was die Zahl „30 %“ bedeutet. Sie ist weit von 100 % entfernt. Es ist nicht die Rede davon, dass nächste Woche Anwälte arbeitslos werden. Auch TechCrunch warnt davor. Gleichzeitig wird jedoch das Argument, dass „es sicher ist“, schwächer. Der Ersatz von Berufen erfolgt nicht in einem Alles-oder-Nichts-Prinzip. Zuerst werden die „reduzierbaren Arbeiten“ reduziert.



Was vor dem Ersatz passiert: Die „Zerlegung“ der juristischen Arbeit

Wenn man die juristische Arbeit zerlegt, werden die Bereiche sichtbar, in denen KI leicht eingesetzt werden kann.

  • Erster Entwurf: Vertragsvorlagen, Klauselvorschläge, Identifizierung von Risikobereichen

  • Forschungsunterstützung: Strukturierung von Themen, Identifizierung von Gesetzen, Präzedenzfällen und Richtlinien

  • Vergleich und Zusammenfassung: Erklärung der Unterschiede bei Änderungen der Gegenseite, Auflistung von Verhandlungspunkten

  • Standardisierte Antworten: Vorschläge für Antworten auf häufige Anfragen, Vorlagen gemäß internen Regeln


Auch wenn „endgültige Verantwortung“ oder „Urteile“ erforderlich sind, besteht der Großteil der Arbeit aus Recherche, Strukturierung und Textverfassung. Wenn Agenten dies günstig und schnell erledigen können, wird sich die Kostenstruktur von Anwaltskanzleien und Unternehmensjuristen ändern.


Andererseits bleiben Bereiche wie der Umgang mit Zeugenaussagen und Emotionen, das Vertrauen der Parteien und der Konflikt von Werturteilen, die durch Textgenerierung schwer zu ersetzen sind. Das bedeutet, dass sich die Form der juristischen Arbeit realistischerweise ändern wird, anstatt vollständig zu verschwinden.



Reaktionen in den sozialen Medien: Erwartungen und Ernüchterung gleichzeitig

Die Reaktionen in den sozialen Medien (Foren und Communities) auf dieses Thema lassen sich grob in drei Stimmungen unterteilen.


1) „Als Hilfsmittel bereits nützlich, aber ohne Aufsicht gefährlich“

In der juristischen Community auf Reddit äußerte ein Nutzer, der sich als praktizierender Anwalt ausgibt, dass „bestimmte Aufgaben erleichtert werden, aber Halluzinationen und ein Mangel an Konzeptverständnis bestehen, weshalb die Aufsicht durch Fachleute notwendig ist“, und er sieht die Zukunft in einer Positionierung als „nächste Generation von Westlaw (juristische Rechercheplattform)“. Er ist skeptisch gegenüber einem vollständigen Ersatz durch autonome Systeme, aber die Verbreitung als Werkzeug wird als selbstverständlich angesehen.


2) „Vor Gericht oder im Strafrecht unmöglich. Die Gesellschaft wird es nicht akzeptieren“

In einem anderen Thread der juristischen Community wird im Kontext der Strafverteidigung die Meinung geäußert, dass „es schwer vorstellbar ist, dass KI die feinen prozeduralen Entscheidungen fallweise übernimmt“ und dass „KI, die Schuld oder Strafe bestimmt, dystopisch wäre“. Hier stehen nicht nur die Fähigkeiten, sondern auch die Legitimität, Transparenz und das menschliche Einverständnis im Vordergrund.


3) „Wer übernimmt die Verantwortung? Verträge und Governance werden zum Engpass“

Auf Hacker News wird diskutiert, wer die Verantwortung trägt – der Verkäufer der KI-Agenten, der Anbieter des Basismodells oder der Kunde – und es wird über die „Vertrags- und Verantwortungsabgrenzung“ debattiert. Wer hat das defekte Produkt verkauft, wie wird die Unsicherheit von SaaS vertraglich geregelt – je besser die Leistung wird, desto mehr steigt der Bedarf an „Rechtsberatung für die Nutzung von KI“, was eine ironische Situation darstellt.


Zusätzlich hat das Legal-Tech-Unternehmen Harvey bekannt gegeben, dass Opus 4.6 in ihrer eigenen Bewertung (BigLaw Bench) hohe Punktzahlen erzielt hat und sich bei praxisnahen Aufgaben (im Bereich von Prozessen und Transaktionen) als stark erwiesen hat. Dies ist eine Reaktion, die die „Energie des Produktmarktes“ und nicht nur die „Forschungsergebnisse“ widerspiegelt.



Der wahre Grund, warum „30 %“ beängstigend sind

Warum kann eine Punktzahl von etwa 30 % dennoch eine „Bedrohung“ darstellen? Es gibt zwei Gründe.


Der erste Grund ist, dass die Bereiche, in denen Punkte erzielt werden, ungleich verteilt sind. In der juristischen Arbeit gibt es Bereiche, in denen es mehr um Routineverarbeitung als um schwierige Entscheidungen geht. Selbst wenn nur diese automatisiert werden, wird die Struktur der Einstellung und Ausbildung in der Branche (die Möglichkeit für Junioren, Erfahrung zu sammeln) erschüttert.


Der zweite Grund ist, dass durch Wiederholungen und Arbeitsteilung die praktische Anwendbarkeit näher rückt. Auch bei APEX-Agents wird gesagt, dass der Durchschnitt bei mehreren Versuchen höher ist als bei einem einzigen. Das bedeutet, dass je mehr sich die Fähigkeit entwickelt, „zuerst daneben zu liegen, aber bei Wiederholung zu treffen“, desto mehr können die Überprüfungskosten für Menschen gesenkt werden.


An diesem Punkt dreht sich die Diskussion nicht mehr darum, „ob Anwälte verschwinden“.
Es geht darum, „welche Arbeit zuerst günstiger wird“ und „wer überwacht und wer die Verantwortung trägt“.



Die wahrscheinlich bevorstehende Realität: Die „KI-Voraussetzung“ im Rechtsbereich

Das realistische Zukunftsbild sieht wahrscheinlich so aus.

  • Unternehmensjuristen werden die Vorabprüfung von Vertragsüberprüfungen und internen Anfragen mit KI durchführen, während Anwälte sich auf Ausnahmebehandlungen und Verhandlungen konzentrieren

  • Anwaltskanzleien werden die Durchsatzrate von Recherchen und Entwürfen erhöhen und ihre Preisstruktur (Fixkosten → Leistung und Wert) überdenken

  • Die Kontrolle über die „Nutzung von KI“ selbst (Protokollierung, Erklärung, Überwachung, erneute Bewertung bei Modellaktualisierungen) wird zu einem neuen Compliance-Bereich

  • Und die Art und Weise, wie Verantwortung, Haftungsausschlüsse und Garantien formuliert werden, wird verfeinert, und die „Vertragspraktiken im KI-Zeitalter“ werden umfangreicher


Es ist schneller, dass Juristen ihre Arbeit unter der Voraussetzung der Nutzung von KI umgestalten, als dass KI Juristen wird. Der Anstieg der Punktzahlen von APEX-Agents war ein Ereignis, das diese Realität vorwegnahm.



Quellen