Zurück zum Blog
KI Evaluation Legal Tech Multi-Agent 7. Januar 2025

Wie wir das beste KI-Modell für rechtliche Analysen gefunden haben

Ein dreistufiger Evaluationsansatz: LLM-as-a-Judge, Crew-as-a-Judge und menschliche Validierung. Parallel statt sequentiell.

Die Herausforderung: Qualität messbar machen

Welches KI-Modell liefert die besten rechtlichen Analysen? Bei Erst Recht stand diese Frage am Anfang. Bauchgefühl und Marketing-Versprechen reichen nicht. Wir brauchten einen systematischen, datengetriebenen Ansatz.

Das Ergebnis: Eine dreistufige Evaluation, bei der KI-Bewertung und menschliche Expertise zusammenarbeiten. In diesem Artikel zeige ich, wie wir vorgegangen sind.

Das Problem: Wie misst man "gute" rechtliche Analyse?

Bei Matheaufgaben gibt es eine klare "Ground Truth": 40+2=42, fertig. (Und nein, wir reden hier nicht von JavaScript, wo '1' + '1' = '11'.) Bei juristischen Analysen fehlt diese Eindeutigkeit. Die Anforderungen sind vielschichtig:

  • Faktisch korrekt: Richtige Gesetze, aktuelle Rechtsprechung
  • Vollständig: Alle relevanten Aspekte, keine vergessenen Fristen
  • Verständlich: Auch ohne Jura-Studium nachvollziehbar
  • Handlungsorientiert: Konkrete nächste Schritte

Manuelle Evaluation jedes Testfalls ist zeitaufwändig und subjektiv. Wir brauchten einen skalierbaren, aber zuverlässigen Ansatz.

Unser Ansatz: Drei parallele Judges

Wichtig: Die drei Bewertungsebenen arbeiten parallel, nicht sequentiell. Jeder Judge bewertet unabhängig dieselben Outputs – die Ergebnisse werden am Ende aggregiert.

TESTFÄLLE • Mietschutz • Scrum Master • Kündigung • ... → an alle Modelle MODELLE Model A Model B Model C Model D generiert OUTPUTS Output A Output B Output C Output D LLM-as-a-Judge Automatisiert Ein starkes Modell bewertet alle Outputs Crew-as-a-Judge Multi-Perspektive Mehrere Agenten prüfen gemeinsam Mensch-as-a-Judge Experten-Review Juristen validieren Stichproben WINNER Model A, C Model B Model A, D pro Fall OVERALL Model A Gesamt PARALLELE BEWERTUNG

1. LLM-as-a-Judge

Das Konzept: Ein leistungsfähiges Sprachmodell bewertet die Outputs aller anderen Modelle nach klar definierten Kriterien. Automatisiert und skalierbar.

Wir bewerten jede Analyse in vier spezialisierten Dimensionen:

Juristische Korrektheit

  • Richtige Gesetze zitiert?
  • Aktuelle Rechtsprechung berücksichtigt?
  • Keine falschen Rechtsfolgen?

Laien-Verständlichkeit

  • 1 = Unverständlich, voller Juristendeutsch
  • 3 = Grundsätzlich verständlich
  • 5 = Perfekt verständlich

Vollständigkeit

  • Alle Rechtsgebiete identifiziert?
  • Fristen erwähnt?
  • Risiken und Gegenargumente genannt?

Handlungsempfehlungen

  • Konkrete, umsetzbare Schritte?
  • Klare Priorisierung?
  • Hinweis, wann Anwalt nötig?

2. Crew-as-a-Judge

Ein einzelner Judge hat blinde Flecken. Die Lösung: Mehrere spezialisierte KI-Agenten bewerten aus unterschiedlichen Perspektiven.

Juristischer Prüfer

Gesetzeskonformität und fachliche Korrektheit

Laien-Verständlichkeits-Tester

Perspektive eines Nicht-Juristen

Vollständigkeits-Checker

Fehlende Aspekte und Lücken identifizieren

Praxis-Bewerter

Umsetzbarkeit der Empfehlungen prüfen

Der Clou: Die Agenten "diskutieren" und konsolidieren zu einem Gesamturteil. Das Ergebnis ist robuster als jede Einzelbewertung.

3. Mensch-as-a-Judge (Human Validation)

KI-Evaluation ersetzt keine menschliche Expertise, aber sie muss auch nicht jeden Fall einzeln prüfen. Stattdessen validiert ein Experten-Panel aus Juristen und Legal-Tech-Spezialisten eine Stichprobe der Ergebnisse:

  • Blind-Tests: Experten wissen nicht, welches Modell welchen Output produziert
  • Edge-Cases: Gezielte Tests von Grenzfällen
  • Kalibrierung: Stimmen die menschlichen Urteile mit der KI-Bewertung überein?

Das Ziel: Sicherstellen, dass die automatisierte Bewertung zuverlässig ist. Die menschliche Stichprobe dient als Sanity-Check, nicht als vollständige Neubewertung.

Ergebnis-Aggregation

Alle drei Judges bewerten jeden Fall für jedes Modell. Die Ergebnisse werden kombiniert zu:

  • Winner Model pro Fall: Welches Modell hat bei diesem spezifischen Fall am besten abgeschnitten?
  • Winner Model overall: Gesamtsieger über alle Fälle hinweg

Konsens zwischen den Judges erhöht das Vertrauen in das Ergebnis. Bei abweichenden Urteilen analysieren wir den Fall tiefer.

Der Testprozess im Detail

Systematische Evaluation braucht systematische Tests:

  1. Testfall-Erstellung: Fälle aus allen Rechtsgebieten (Arbeitsrecht, Mietrecht, Familienrecht, etc.)
  2. Identische Bedingungen: Exakt dieselben Prompts für jedes Modell
  3. Mehrfache Durchläufe: Konsistenz-Check pro Szenario
  4. Parallele Bewertung: Zwei Judges bewerten gleichzeitig

(Vereinfachte Darstellung!)

Beispiel-Testfall: Kündigung im Arbeitsrecht

"Ich arbeite seit 8 Jahren in einer Firma mit 50 Mitarbeitern. Gestern habe ich eine Kündigung erhalten mit einer Frist von 4 Wochen zum Monatsende. Ist das rechtens? Was kann ich tun?"
Korrekte Analyse muss erkennen:
  • Kündigungsfrist zu kurz (§622 Abs. 2 BGB → 3 Monate bei 8 Jahren)
  • Kündigungsschutz greift (>10 Mitarbeiter)
  • 3-Wochen-Frist für Kündigungsschutzklage ist kritisch

Judges bewerten: Alle Punkte erkannt? Verständlich formuliert? Konkrete Handlungsschritte?

Ergebnisse und Erkenntnisse

"Die KI-Judges bewerteten Model A mehrheitlich als Sieger. Die menschlichen Stichproben bestätigten dieses Ergebnis. Ein starkes Signal für die Zuverlässigkeit unserer automatisierten Evaluation."

Die Evaluation lieferte klare Ergebnisse: Sowohl LLM-as-a-Judge als auch Crew-as-a-Judge identifizierten konsistent dasselbe Modell als Gewinner. Die menschliche Validierung per Stichprobe kam zum selben Ergebnis.

Wichtige Erkenntnisse aus der Evaluation:

  • Eigene Ansätze lohnen sich: Unsere spezialisierten Methoden übertrafen generische Lösungen (ChatGPT, Gemini)
  • Trade-offs existieren: Manche Ansätze sind schneller, andere präziser. Wir haben für Qualität optimiert
  • Konsistenz zählt: Ansätze mit schwankender Qualität schieden aus

Was wir gelernt haben

Iteration ist alles

Erste Bewertungskriterien waren zu vage. "Ist die Analyse gut?" funktioniert nicht. Jede Iteration machte die Evaluation genauer.

KI-Bewertung spart Zeit, ersetzt keine Menschen

LLM-as-a-Judge: Hunderte Testfälle effizient bewerten. Finale Entscheidung und Grenzfälle: Menschliche Expertise bleibt nötig.

Evaluation ist kein einmaliges Projekt

Neue Modellversionen erscheinen regelmäßig. Kontinuierliche Re-Evaluationen sichern langfristig beste Qualität.


Erst Recht nutzt KI, um Rechtsberatung zugänglich zu machen. Überzeugen Sie sich selbst von der Qualität unserer KI-Analyse.

Jetzt Ersteinschätzung erhalten (Ab 9,99€)

Planen Sie ein eigenes LLM-Evaluationsprojekt? Schreiben Sie mir. Ich helfe gerne bei der Konzeption und Umsetzung.