Die Herausforderung: Qualität messbar machen
Welches KI-Modell liefert die besten rechtlichen Analysen? Bei Erst Recht stand diese Frage am Anfang. Bauchgefühl und Marketing-Versprechen reichen nicht. Wir brauchten einen systematischen, datengetriebenen Ansatz.
Das Ergebnis: Eine dreistufige Evaluation, bei der KI-Bewertung und menschliche Expertise zusammenarbeiten. In diesem Artikel zeige ich, wie wir vorgegangen sind.
Das Problem: Wie misst man "gute" rechtliche Analyse?
Bei Matheaufgaben gibt es eine klare "Ground Truth": 40+2=42, fertig. (Und nein, wir reden hier nicht von JavaScript, wo '1' + '1' = '11'.) Bei juristischen Analysen fehlt diese Eindeutigkeit. Die Anforderungen sind vielschichtig:
- Faktisch korrekt: Richtige Gesetze, aktuelle Rechtsprechung
- Vollständig: Alle relevanten Aspekte, keine vergessenen Fristen
- Verständlich: Auch ohne Jura-Studium nachvollziehbar
- Handlungsorientiert: Konkrete nächste Schritte
Manuelle Evaluation jedes Testfalls ist zeitaufwändig und subjektiv. Wir brauchten einen skalierbaren, aber zuverlässigen Ansatz.
Unser Ansatz: Drei parallele Judges
Wichtig: Die drei Bewertungsebenen arbeiten parallel, nicht sequentiell. Jeder Judge bewertet unabhängig dieselben Outputs – die Ergebnisse werden am Ende aggregiert.
1. LLM-as-a-Judge
Das Konzept: Ein leistungsfähiges Sprachmodell bewertet die Outputs aller anderen Modelle nach klar definierten Kriterien. Automatisiert und skalierbar.
Wir bewerten jede Analyse in vier spezialisierten Dimensionen:
Juristische Korrektheit
- Richtige Gesetze zitiert?
- Aktuelle Rechtsprechung berücksichtigt?
- Keine falschen Rechtsfolgen?
Laien-Verständlichkeit
- 1 = Unverständlich, voller Juristendeutsch
- 3 = Grundsätzlich verständlich
- 5 = Perfekt verständlich
Vollständigkeit
- Alle Rechtsgebiete identifiziert?
- Fristen erwähnt?
- Risiken und Gegenargumente genannt?
Handlungsempfehlungen
- Konkrete, umsetzbare Schritte?
- Klare Priorisierung?
- Hinweis, wann Anwalt nötig?
2. Crew-as-a-Judge
Ein einzelner Judge hat blinde Flecken. Die Lösung: Mehrere spezialisierte KI-Agenten bewerten aus unterschiedlichen Perspektiven.
Juristischer Prüfer
Gesetzeskonformität und fachliche Korrektheit
Laien-Verständlichkeits-Tester
Perspektive eines Nicht-Juristen
Vollständigkeits-Checker
Fehlende Aspekte und Lücken identifizieren
Praxis-Bewerter
Umsetzbarkeit der Empfehlungen prüfen
Der Clou: Die Agenten "diskutieren" und konsolidieren zu einem Gesamturteil. Das Ergebnis ist robuster als jede Einzelbewertung.
3. Mensch-as-a-Judge (Human Validation)
KI-Evaluation ersetzt keine menschliche Expertise, aber sie muss auch nicht jeden Fall einzeln prüfen. Stattdessen validiert ein Experten-Panel aus Juristen und Legal-Tech-Spezialisten eine Stichprobe der Ergebnisse:
- Blind-Tests: Experten wissen nicht, welches Modell welchen Output produziert
- Edge-Cases: Gezielte Tests von Grenzfällen
- Kalibrierung: Stimmen die menschlichen Urteile mit der KI-Bewertung überein?
Das Ziel: Sicherstellen, dass die automatisierte Bewertung zuverlässig ist. Die menschliche Stichprobe dient als Sanity-Check, nicht als vollständige Neubewertung.
Ergebnis-Aggregation
Alle drei Judges bewerten jeden Fall für jedes Modell. Die Ergebnisse werden kombiniert zu:
- Winner Model pro Fall: Welches Modell hat bei diesem spezifischen Fall am besten abgeschnitten?
- Winner Model overall: Gesamtsieger über alle Fälle hinweg
Konsens zwischen den Judges erhöht das Vertrauen in das Ergebnis. Bei abweichenden Urteilen analysieren wir den Fall tiefer.
Der Testprozess im Detail
Systematische Evaluation braucht systematische Tests:
- Testfall-Erstellung: Fälle aus allen Rechtsgebieten (Arbeitsrecht, Mietrecht, Familienrecht, etc.)
- Identische Bedingungen: Exakt dieselben Prompts für jedes Modell
- Mehrfache Durchläufe: Konsistenz-Check pro Szenario
- Parallele Bewertung: Zwei Judges bewerten gleichzeitig
(Vereinfachte Darstellung!)
Beispiel-Testfall: Kündigung im Arbeitsrecht
- Kündigungsfrist zu kurz (§622 Abs. 2 BGB → 3 Monate bei 8 Jahren)
- Kündigungsschutz greift (>10 Mitarbeiter)
- 3-Wochen-Frist für Kündigungsschutzklage ist kritisch
Judges bewerten: Alle Punkte erkannt? Verständlich formuliert? Konkrete Handlungsschritte?
Ergebnisse und Erkenntnisse
"Die KI-Judges bewerteten Model A mehrheitlich als Sieger. Die menschlichen Stichproben bestätigten dieses Ergebnis. Ein starkes Signal für die Zuverlässigkeit unserer automatisierten Evaluation."
Die Evaluation lieferte klare Ergebnisse: Sowohl LLM-as-a-Judge als auch Crew-as-a-Judge identifizierten konsistent dasselbe Modell als Gewinner. Die menschliche Validierung per Stichprobe kam zum selben Ergebnis.
Wichtige Erkenntnisse aus der Evaluation:
- Eigene Ansätze lohnen sich: Unsere spezialisierten Methoden übertrafen generische Lösungen (ChatGPT, Gemini)
- Trade-offs existieren: Manche Ansätze sind schneller, andere präziser. Wir haben für Qualität optimiert
- Konsistenz zählt: Ansätze mit schwankender Qualität schieden aus
Was wir gelernt haben
Iteration ist alles
Erste Bewertungskriterien waren zu vage. "Ist die Analyse gut?" funktioniert nicht. Jede Iteration machte die Evaluation genauer.
KI-Bewertung spart Zeit, ersetzt keine Menschen
LLM-as-a-Judge: Hunderte Testfälle effizient bewerten. Finale Entscheidung und Grenzfälle: Menschliche Expertise bleibt nötig.
Evaluation ist kein einmaliges Projekt
Neue Modellversionen erscheinen regelmäßig. Kontinuierliche Re-Evaluationen sichern langfristig beste Qualität.
Erst Recht nutzt KI, um Rechtsberatung zugänglich zu machen. Überzeugen Sie sich selbst von der Qualität unserer KI-Analyse.
Planen Sie ein eigenes LLM-Evaluationsprojekt? Schreiben Sie mir. Ich helfe gerne bei der Konzeption und Umsetzung.