Bei Erst Recht bauen wir eine KI-gestützte Rechtsberatungsplattform für deutsches Recht. Eine unserer größten Herausforderungen? Tausende juristische PDF-Dokumente in eine durchsuchbare Wissensbasis zu verwandeln, die unsere KI-Agenten tatsächlich nutzen können.
Die Lösung: Docling, ein Open-Source-Toolkit zur Dokumentenverarbeitung von IBM Research.
Die Herausforderung
Wir hatten Zugang zu umfassenden juristischen Fachmaterialien, die alles vom Arbeitsrecht bis zum Erbrecht abdecken. Diese PDFs enthielten:
- Komplexe juristische Inhalte mit verschiedenen Dokumenttypen
- Unterschiedliche Strukturen je nach Rechtsgebiet
- 22 verschiedene Rechtsgebiete, jedes mit eigenen Anforderungen
Das Problem: Wer schon mal versucht hat, Text aus einem PDF zu extrahieren, kennt das Ergebnis. Überschriften landen mitten im Fließtext, Tabellen werden zu Zeichensalat, mehrspaltige Layouts werden zeilenweise statt spaltenweise gelesen. Man kann diesen rohen Text nicht einfach in eine Vektordatenbank werfen und gute Ergebnisse erwarten. Die Struktur ist entscheidend – und juristische Dokumente leben von Zusammenhängen, die bei naiver Textextraktion verloren gehen.
Warum nicht einfach OCR verwenden?
Unser erster Instinkt war, traditionelle OCR (Optical Character Recognition) zu verwenden. Aber wir erkannten schnell, dass OCR das falsche Problem löst:
| Traditionelle OCR | Docling |
|---|---|
| Konvertiert Bilder → Text | Konvertiert Dokumente → strukturierte Daten |
| Verliert Dokumentstruktur | Erhält Überschriften, Listen, Hierarchie |
| Behandelt jede Seite als flachen Text | Versteht Lesereihenfolge |
| Tabellen werden zu wirrem Text | Tabellen bleiben als Tabellen |
Docling ist nicht "nur bessere OCR", sondern eine Document-Understanding-Pipeline. Es gibt sauberes Markdown mit der logischen Struktur des Dokuments aus.
Unsere Pipeline
So verarbeiten wir ein juristisches PDF:
Schritt 1: Klassifikation
Vor der Verarbeitung klassifizieren wir jedes Dokument nach Typ und Rechtsgebiet.
Schritt 2: Docling-Konvertierung
Docling konvertiert PDFs in strukturiertes Markdown. Für unsere digitalen PDFs (die bereits Textebenen haben) deaktivieren wir OCR für Geschwindigkeit:
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("document.pdf")
markdown = result.document.export_to_markdown()
Der Output erhält Überschriften, Listen und Struktur:
## Anspruchsgrundlagen
### Vertragliche Ansprüche
- Erfüllungsanspruch
- Schadensersatz statt der Leistung
### Gesetzliche Ansprüche
- Deliktsrecht
- Bereicherungsrecht
Schritt 3: Intelligente Aufbereitung
Wir haben eine domänenspezifische Aufbereitungslogik entwickelt, die juristische Dokumentstrukturen versteht. Die genaue Methodik ist unser Geheimrezept – aber das Ergebnis ist klar: Die KI bekommt nicht nur isolierte Textfragmente, sondern versteht Zusammenhänge.
Der entscheidende Punkt: Kontext macht den Unterschied zwischen "ich habe etwas gefunden" und "ich habe die Antwort verstanden".
Schritt 4: Embeddings & Vektorspeicherung
Wir generieren Embeddings mit einem LLM-Embedding-Modell und speichern alles in einer Vektordatenbank, was gefilterte Suche ermöglicht:
- Nur in bestimmten Rechtsgebieten suchen
- Nach Dokumenttyp und Relevanz filtern
- Zusammengehörige Inhalte intelligent abrufen
Die Ergebnisse
Wir haben 22 Rechtsgebiete und über 1.000 PDF-Dokumente verarbeitet. Aber die Zahlen sind nicht das Entscheidende. Der Unterschied in der Antwortqualität ist es.
Vorher: Die KI lieferte oberflächliche Ergebnisse. Sie fand zwar relevante Textpassagen, aber ohne den nötigen Kontext. Bei komplexen Rechtsfragen kam sie zu falschen Schlüssen – weil isolierte Informationen nicht ausreichen.
Nachher: Durch eine intelligente Aufbereitung der Dokumente versteht die KI jetzt Zusammenhänge. Die Ergebnisse sind präzise und zuverlässig. Das hat das Produkt von "interessanter Prototyp" zu "produktionsreif" gebracht.
Konkret kann das System jetzt:
- Relevante Präzedenzfälle finden – auch bei komplexen Fragestellungen
- Vollständige Antworten liefern – mit dem nötigen Kontext für fundierte Entscheidungen
- Gezielt nach Rechtsgebiet suchen – für maximale Relevanz
Key Learnings
"Docling ermöglicht es, die volle Struktur von Dokumenten zu erhalten. Das hat unsere RAG-Qualität grundlegend verbessert."
1. Struktur > Roher Text
Die Beibehaltung der Dokumentstruktur hat unser RAG-System deutlich genauer gemacht. Überschriften werden zu natürlichen Chunk-Grenzen. Listen bleiben als Listen.
2. Kontext schlägt Keyword-Matching
Ein Treffer allein bringt nichts. Erst der Kontext macht ihn nützlich. Unsere Aufbereitung stellt sicher, dass die KI nicht nur findet, sondern auch versteht.
3. OCR überspringen wenn möglich
Unsere PDFs hatten Textebenen. Das Deaktivieren von OCR machte die Verarbeitung 10x schneller ohne Qualitätsverlust.
4. Domänenspezifische Nachbearbeitung
Docling gibt sauberes Markdown. Was danach kommt, hängt von der Domäne ab. Für juristische Dokumente haben wir eine Nachbearbeitung entwickelt, die auf die Besonderheiten rechtlicher Argumentation zugeschnitten ist. In anderen Domänen wie technische Dokumentation, Compliance oder Vertragsmanagement wären andere Ansätze relevant.
Was kommt als Nächstes
Wir arbeiten kontinuierlich an der Verbesserung unserer Pipeline. Im Fokus: Fortgeschrittene Chunking-Strategien und die Erschließung weiterer Dokumenttypen wie Gerichtsentscheidungen und Gesetzestexte.
Erst Recht nutzt KI, um Rechtsberatung zugänglich zu machen. Unser Multi-Agent-System analysiert Ihre rechtliche Situation und gibt umsetzbare Empfehlungen.
Verwendete Tools:
Arbeiten Sie an einem ähnlichen Problem? Große Dokumentenbestände für RAG aufbereiten? Schreiben Sie mir, ich helfe gerne bei der Architektur oder Implementierung.