Steht der Tag bevor, an dem KI vor Gericht steht? Die Sicherheit der Anwälte wurde innerhalb weniger Wochen erschüttert — Gründe für den sprunghaften Anstieg der Leistung von KI-Agenten

2026年02月08日 14:28

„Ein Tag, an dem KI Anwalt wird, wird nie kommen“ – bis vor kurzem herrschte eine solche Überzeugung. Der Grund war einfach: Wenn man KI Aufgaben gab, die den „praktischen“ Aspekten eines Fachberufs nahe kamen, erzielte sie nicht die erwarteten Ergebnisse. Doch diese Überzeugung geriet innerhalb weniger Wochen ins Wanken.

TechCrunch berichtete über die Ranglistenveränderungen der von Mercor veröffentlichten KI-Agentenbewertung „APEX-Agents“. Noch im letzten Monat waren die Ergebnisse der wichtigsten Labors mit weniger als 25 % schwach, und es schien, als wären Juristen zumindest vorerst sicher. Doch in dieser Woche mischte Anthropic's Opus 4.6 die Rangliste auf und erreichte in einem Durchlauf fast 30 % und bei mehreren Versuchen durchschnittlich etwa 45 %. Die Zahlen sind zwar noch nicht als „bestehend“ zu bezeichnen, aber der Anstieg ist bemerkenswert. Mercor-CEO Brendan Foody bezeichnete den rasanten Anstieg in kurzer Zeit als „unglaublich“.

Was misst „APEX-Agents“?

Das Interessante an APEX-Agents ist, dass es nicht nur ein Wissenstest ist, sondern versucht zu messen, wie gut Agenten in einer Umgebung, die die „praktische Arbeit hochbezahlter Weißkollarberufe“ wie Investmentbanking-Analysten, Berater und Unternehmensjuristen simuliert, ihre Aufgaben erledigen können. Laut Mercor erfordert dies die Nutzung mehrerer Apps, lange Planungen, Fachwissen und Schlussfolgerungen, mit 33 „Welten“ und 480 Aufgaben und Bewertungskriterien. Zudem werden die Daten und das Bewertungssystem (Archipelago) ebenfalls veröffentlicht. Kurz gesagt, es geht darum, eine „realistische Umgebung“ zu schaffen und die Leistung dort zu bewerten.

Diese Designphilosophie passt gut zum Rechtsbereich. Die Arbeit in der Rechtsabteilung besteht darin, verstreute Materialien wie Gesetze, Präzedenzfälle, interne Richtlinien, Vertragsformulierungen und die Umstände der Parteien zu verbinden und in eine schlüssige Schlussfolgerung und einen Text zu bringen. Zudem sind die Materialien nicht homogen. Interne Dokumente, E-Mails, Chats und externe Gesetze und Richtlinien wirken gleichzeitig. Wie TechCrunch in einem Artikel letzten Monat berichtete, stolpern Modelle oft über „die Suche und Integration von Informationen über mehrere Domänen hinweg“.

Warum stieg die Punktzahl mit Opus 4.6?

Der Schlüssel zu diesem rasanten Anstieg liegt in den „agent teams“, die Anthropic mit Opus 4.6 eingeführt hat. Anstatt dass ein einzelner Agent die Aufgaben nacheinander erledigt, teilen mehrere Agenten die Aufgaben auf, arbeiten parallel und koordinieren sich – ein Design, das das Teamwork von Menschen nachahmt. Laut TechCrunch wird diese Funktion als Forschungsvorschau für API-Nutzer/Abonnenten bereitgestellt, und es wurden weitere „praxisnahe“ Verbesserungen für Wissensarbeiter vorgenommen, wie die Erweiterung der Kontextlänge (1 Million Tokens) und die Integration von Seitenleisten in PowerPoint.

Bei Aufgaben wie denen von APEX-Agents, die „in mehreren Schritten voranschreiten“, „den Kurs zwischendurch anpassen“ und „Ergebnisse organisieren“ erfordern, sind Arbeitsteilung, Wiederholungen und Selbstkontrolle effektiver als einmalige Intelligenz. TechCrunch weist auch darauf hin, dass die „agentic features“ von Opus 4.6 bei mehrstufigen Problemen hilfreich gewesen sein könnten.

Wichtig ist jedoch, was die Zahl „30 %“ bedeutet. Sie ist weit von 100 % entfernt. Es ist nicht die Rede davon, dass nächste Woche Anwälte arbeitslos werden. Auch TechCrunch warnt davor. Gleichzeitig wird jedoch das Argument, dass „es sicher ist“, schwächer. Der Ersatz von Berufen erfolgt nicht in einem Alles-oder-Nichts-Prinzip. Zuerst werden die „reduzierbaren Arbeiten“ reduziert.

Was vor dem Ersatz passiert: Die „Zerlegung“ der juristischen Arbeit

Wenn man die juristische Arbeit zerlegt, werden die Bereiche sichtbar, in denen KI leicht eingesetzt werden kann.

Erster Entwurf: Vertragsvorlagen, Klauselvorschläge, Identifizierung von Risikobereichen
Forschungsunterstützung: Strukturierung von Themen, Identifizierung von Gesetzen, Präzedenzfällen und Richtlinien
Vergleich und Zusammenfassung: Erklärung der Unterschiede bei Änderungen der Gegenseite, Auflistung von Verhandlungspunkten
Standardisierte Antworten: Vorschläge für Antworten auf häufige Anfragen, Vorlagen gemäß internen Regeln

Auch wenn „endgültige Verantwortung“ oder „Urteile“ erforderlich sind, besteht der Großteil der Arbeit aus Recherche, Strukturierung und Textverfassung. Wenn Agenten dies günstig und schnell erledigen können, wird sich die Kostenstruktur von Anwaltskanzleien und Unternehmensjuristen ändern.

Andererseits bleiben Bereiche wie der Umgang mit Zeugenaussagen und Emotionen, das Vertrauen der Parteien und der Konflikt von Werturteilen, die durch Textgenerierung schwer zu ersetzen sind. Das bedeutet, dass sich die Form der juristischen Arbeit realistischerweise ändern wird, anstatt vollständig zu verschwinden.

Reaktionen in den sozialen Medien: Erwartungen und Ernüchterung gleichzeitig

Die Reaktionen in den sozialen Medien (Foren und Communities) auf dieses Thema lassen sich grob in drei Stimmungen unterteilen.

1) „Als Hilfsmittel bereits nützlich, aber ohne Aufsicht gefährlich“

In der juristischen Community auf Reddit äußerte ein Nutzer, der sich als praktizierender Anwalt ausgibt, dass „bestimmte Aufgaben erleichtert werden, aber Halluzinationen und ein Mangel an Konzeptverständnis bestehen, weshalb die Aufsicht durch Fachleute notwendig ist“, und er sieht die Zukunft in einer Positionierung als „nächste Generation von Westlaw (juristische Rechercheplattform)“. Er ist skeptisch gegenüber einem vollständigen Ersatz durch autonome Systeme, aber die Verbreitung als Werkzeug wird als selbstverständlich angesehen.

2) „Vor Gericht oder im Strafrecht unmöglich. Die Gesellschaft wird es nicht akzeptieren“

In einem anderen Thread der juristischen Community wird im Kontext der Strafverteidigung die Meinung geäußert, dass „es schwer vorstellbar ist, dass KI die feinen prozeduralen Entscheidungen fallweise übernimmt“ und dass „KI, die Schuld oder Strafe bestimmt, dystopisch wäre“. Hier stehen nicht nur die Fähigkeiten, sondern auch die Legitimität, Transparenz und das menschliche Einverständnis im Vordergrund.

3) „Wer übernimmt die Verantwortung? Verträge und Governance werden zum Engpass“

Auf Hacker News wird diskutiert, wer die Verantwortung trägt – der Verkäufer der KI-Agenten, der Anbieter des Basismodells oder der Kunde – und es wird über die „Vertrags- und Verantwortungsabgrenzung“ debattiert. Wer hat das defekte Produkt verkauft, wie wird die Unsicherheit von SaaS vertraglich geregelt – je besser die Leistung wird, desto mehr steigt der Bedarf an „Rechtsberatung für die Nutzung von KI“, was eine ironische Situation darstellt.

Zusätzlich hat das Legal-Tech-Unternehmen Harvey bekannt gegeben, dass Opus 4.6 in ihrer eigenen Bewertung (BigLaw Bench) hohe Punktzahlen erzielt hat und sich bei praxisnahen Aufgaben (im Bereich von Prozessen und Transaktionen) als stark erwiesen hat. Dies ist eine Reaktion, die die „Energie des Produktmarktes“ und nicht nur die „Forschungsergebnisse“ widerspiegelt.

Der wahre Grund, warum „30 %“ beängstigend sind

Warum kann eine Punktzahl von etwa 30 % dennoch eine „Bedrohung“ darstellen? Es gibt zwei Gründe.

Der erste Grund ist, dass die Bereiche, in denen Punkte erzielt werden, ungleich verteilt sind. In der juristischen Arbeit gibt es Bereiche, in denen es mehr um Routineverarbeitung als um schwierige Entscheidungen geht. Selbst wenn nur diese automatisiert werden, wird die Struktur der Einstellung und Ausbildung in der Branche (die Möglichkeit für Junioren, Erfahrung zu sammeln) erschüttert.

Der zweite Grund ist, dass durch Wiederholungen und Arbeitsteilung die praktische Anwendbarkeit näher rückt. Auch bei APEX-Agents wird gesagt, dass der Durchschnitt bei mehreren Versuchen höher ist als bei einem einzigen. Das bedeutet, dass je mehr sich die Fähigkeit entwickelt, „zuerst daneben zu liegen, aber bei Wiederholung zu treffen“, desto mehr können die Überprüfungskosten für Menschen gesenkt werden.

An diesem Punkt dreht sich die Diskussion nicht mehr darum, „ob Anwälte verschwinden“.
Es geht darum, „welche Arbeit zuerst günstiger wird“ und „wer überwacht und wer die Verantwortung trägt“.

Die wahrscheinlich bevorstehende Realität: Die „KI-Voraussetzung“ im Rechtsbereich

Das realistische Zukunftsbild sieht wahrscheinlich so aus.

Unternehmensjuristen werden die Vorabprüfung von Vertragsüberprüfungen und internen Anfragen mit KI durchführen, während Anwälte sich auf Ausnahmebehandlungen und Verhandlungen konzentrieren
Anwaltskanzleien werden die Durchsatzrate von Recherchen und Entwürfen erhöhen und ihre Preisstruktur (Fixkosten → Leistung und Wert) überdenken
Die Kontrolle über die „Nutzung von KI“ selbst (Protokollierung, Erklärung, Überwachung, erneute Bewertung bei Modellaktualisierungen) wird zu einem neuen Compliance-Bereich
Und die Art und Weise, wie Verantwortung, Haftungsausschlüsse und Garantien formuliert werden, wird verfeinert, und die „Vertragspraktiken im KI-Zeitalter“ werden umfangreicher

Es ist schneller, dass Juristen ihre Arbeit unter der Voraussetzung der Nutzung von KI umgestalten, als dass KI Juristen wird. Der Anstieg der Punktzahlen von APEX-Agents war ein Ereignis, das diese Realität vorwegnahm.

Quellen

TechCrunch (06.02.2026) „Vielleicht können KI-Agenten doch Anwälte sein“: Hauptartikel über den rasanten Anstieg der Punktzahlen von Opus 4.6 bei APEX-Agents
https://techcrunch.com/2026/02/06/maybe-ai-agents-can-be-lawyers-after-all/
Mercor „Das APEX-Agents Leaderboard“: Design von APEX-Agents (33 Welten/480 Aufgaben) und Punkteliste (z.B. 29,8 % für Opus 4.6)
https://www.mercor.com/apex/apex-agents-leaderboard/
TechCrunch (05.02.2026) „Anthropic veröffentlicht Opus 4.6 mit neuen ‚agent teams‘“: Erklärung der Funktionen wie agent teams, 1 Million Tokens Kontext, PowerPoint-Integration
https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/
TechCrunch (22.01.2026) „Sind KI-Agenten bereit für den Arbeitsplatz? Ein neuer Benchmark weckt Zweifel“: Hintergrund von APEX-Agents, Kontext des „Kampfes“ im letzten Monat
https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/
Reddit r/LawSchool „KI und die Zukunft“: Reaktionsbeispiel aus der Sicht eines praktizierenden Anwalts, dass „Hilfsmittel nützlich sind, aber Aufsicht erforderlich ist“
https://www.reddit.com/r/LawSchool/comments/1qvryim/ai_and_the_future/
Reddit r/Lawyertalk „Laut Bill Gates werden Anwälte bis 2030 vollständig durch KI ersetzt“: Reaktionsbeispiele zur Skepsis gegenüber dem Ersatz im Straf- und Gerichtsbereich und zur gesellschaftlichen Akzeptanz
https://www.reddit.com/r/Lawyertalk/comments/1kra6io/according_to_bill_gates_lawyers_will_be_fully/
Hacker News „Rechtsverträge für KI-Agenten“: Beispiele für Governance-Diskussionen über die Verantwortlichkeit von KI-Agenten, Vertragsgestaltung und die Unsicherheit von SaaS
https://news.ycombinator.com/item?id=45515640
Harvey (Blog) „Opus 4.6, jetzt live in Harvey“: Reaktionsbeispiel aus der Sicht des Legal-Tech-Marktes, dass „hohe Punktzahlen bei praxisnahen Aufgaben“ erzielt wurden
https://www.harvey.ai

„Der Tag, an dem KI zum Chef wird“, ist überraschend nah — 56 % der Geschäftsleiter gaben an, dass „ein Großteil ihrer Arbeit durch KI erledigt werden kann“.

Eine Ära, in der Medikamente und Behandlungspläne von KI "vorbereitet" werden — Was in der Krebsmedizin geschieht

Im Jahr 2025 wird KI vom "Sprechen" zum "Handeln" übergehen — Die Wahrheit über das erste Jahr der KI-Agenten und die Aufgaben für 2026

„Der Schock der Aussage des CEO: ‚Die Hälfte der Arbeitsplätze wird durch KI verloren gehen‘“ – Der Tag, an dem die Zukunft der Arbeit begann, sich zu verändern.

Menschen nicht zugelassen, der Verfasser ist „30.000 KI“ ─ Moltbook spiegelt die Realität des „Agenten-Zeitalters“ wider

Steht der Tag bevor, an dem KI vor Gericht steht? Die Sicherheit der Anwälte wurde innerhalb weniger Wochen erschüttert — Gründe für den sprunghaften Anstieg der Leistung von KI-Agenten

Was misst „APEX-Agents“?

Warum stieg die Punktzahl mit Opus 4.6?

Was vor dem Ersatz passiert: Die „Zerlegung“ der juristischen Arbeit

Reaktionen in den sozialen Medien: Erwartungen und Ernüchterung gleichzeitig

1) „Als Hilfsmittel bereits nützlich, aber ohne Aufsicht gefährlich“

2) „Vor Gericht oder im Strafrecht unmöglich. Die Gesellschaft wird es nicht akzeptieren“

3) „Wer übernimmt die Verantwortung? Verträge und Governance werden zum Engpass“

Der wahre Grund, warum „30 %“ beängstigend sind

Die wahrscheinlich bevorstehende Realität: Die „KI-Voraussetzung“ im Rechtsbereich

Quellen

cookie_banner_title

Was misst „APEX-Agents“?

Warum stieg die Punktzahl mit Opus 4.6?

Was vor dem Ersatz passiert: Die „Zerlegung“ der juristischen Arbeit

Reaktionen in den sozialen Medien: Erwartungen und Ernüchterung gleichzeitig

1) „Als Hilfsmittel bereits nützlich, aber ohne Aufsicht gefährlich“

2) „Vor Gericht oder im Strafrecht unmöglich. Die Gesellschaft wird es nicht akzeptieren“

3) „Wer übernimmt die Verantwortung? Verträge und Governance werden zum Engpass“

Der wahre Grund, warum „30 %“ beängstigend sind

Die wahrscheinlich bevorstehende Realität: Die „KI-Voraussetzung“ im Rechtsbereich

Quellen

„Der Tag, an dem KI zum Chef wird“, ist überraschend nah — 56 % der Geschäftsleiter gaben an, dass „ein Großteil ihrer Arbeit durch KI erledigt werden kann“.

Eine Ära, in der Medikamente und Behandlungspläne von KI "vorbereitet" werden — Was in der Krebsmedizin geschieht

Im Jahr 2025 wird KI vom "Sprechen" zum "Handeln" übergehen — Die Wahrheit über das erste Jahr der KI-Agenten und die Aufgaben für 2026

„Der Schock der Aussage des CEO: ‚Die Hälfte der Arbeitsplätze wird durch KI verloren gehen‘“ – Der Tag, an dem die Zukunft der Arbeit begann, sich zu verändern.

Menschen nicht zugelassen, der Verfasser ist „30.000 KI“ ─ Moltbook spiegelt die Realität des „Agenten-Zeitalters“ wider