Legal AI Knowledge Base mit Docling

Wie wir juristische Studienmaterialien mit Docling in eine durchsuchbare Wissensbasis für unsere KI-gestützte Rechtsberatungsplattform verwandelt haben.

Bei Erst Recht bauen wir eine KI-gestützte Rechtsberatungsplattform für deutsches Recht. Eine unserer größten Herausforderungen? Tausende juristische PDF-Dokumente in eine durchsuchbare Wissensbasis zu verwandeln, die unsere KI-Agenten tatsächlich nutzen können.

Die Lösung: Docling, ein Open-Source-Toolkit zur Dokumentenverarbeitung von IBM Research.

Die Herausforderung

Wir hatten Zugang zu umfassenden juristischen Fachmaterialien, die alles vom Arbeitsrecht bis zum Erbrecht abdecken. Diese PDFs enthielten:

Komplexe juristische Inhalte mit verschiedenen Dokumenttypen
Unterschiedliche Strukturen je nach Rechtsgebiet
22 verschiedene Rechtsgebiete, jedes mit eigenen Anforderungen

Das Problem: Wer schon mal versucht hat, Text aus einem PDF zu extrahieren, kennt das Ergebnis. Überschriften landen mitten im Fließtext, Tabellen werden zu Zeichensalat, mehrspaltige Layouts werden zeilenweise statt spaltenweise gelesen. Man kann diesen rohen Text nicht einfach in eine Vektordatenbank werfen und gute Ergebnisse erwarten. Die Struktur ist entscheidend – und juristische Dokumente leben von Zusammenhängen, die bei naiver Textextraktion verloren gehen.

Warum nicht einfach OCR verwenden?

Unser erster Instinkt war, traditionelle OCR (Optical Character Recognition) zu verwenden. Aber wir erkannten schnell, dass OCR das falsche Problem löst:

Traditionelle OCR	Docling
Konvertiert Bilder → Text	Konvertiert Dokumente → strukturierte Daten
Verliert Dokumentstruktur	Erhält Überschriften, Listen, Hierarchie
Behandelt jede Seite als flachen Text	Versteht Lesereihenfolge
Tabellen werden zu wirrem Text	Tabellen bleiben als Tabellen

Docling ist nicht "nur bessere OCR", sondern eine Document-Understanding-Pipeline. Es gibt sauberes Markdown mit der logischen Struktur des Dokuments aus.

Unsere Pipeline

So verarbeiten wir ein juristisches PDF:

Schritt 1: Klassifikation

Vor der Verarbeitung klassifizieren wir jedes Dokument nach Typ und Rechtsgebiet.

Schritt 2: Docling-Konvertierung

Docling konvertiert PDFs in strukturiertes Markdown. Für unsere digitalen PDFs (die bereits Textebenen haben) deaktivieren wir OCR für Geschwindigkeit:

from docling.document_converter import DocumentConverter

converter = DocumentConverter()
result = converter.convert("document.pdf")
markdown = result.document.export_to_markdown()

Der Output erhält Überschriften, Listen und Struktur:

## Anspruchsgrundlagen

### Vertragliche Ansprüche
- Erfüllungsanspruch
- Schadensersatz statt der Leistung

### Gesetzliche Ansprüche
- Deliktsrecht
- Bereicherungsrecht

Schritt 3: Intelligente Aufbereitung

Wir haben eine domänenspezifische Aufbereitungslogik entwickelt, die juristische Dokumentstrukturen versteht. Die genaue Methodik ist unser Geheimrezept – aber das Ergebnis ist klar: Die KI bekommt nicht nur isolierte Textfragmente, sondern versteht Zusammenhänge.

Der entscheidende Punkt: Kontext macht den Unterschied zwischen "ich habe etwas gefunden" und "ich habe die Antwort verstanden".

Schritt 4: Embeddings & Vektorspeicherung

Wir generieren Embeddings mit einem LLM-Embedding-Modell und speichern alles in einer Vektordatenbank, was gefilterte Suche ermöglicht:

Nur in bestimmten Rechtsgebieten suchen
Nach Dokumenttyp und Relevanz filtern
Zusammengehörige Inhalte intelligent abrufen

Die Ergebnisse

Wir haben 22 Rechtsgebiete und über 1.000 PDF-Dokumente verarbeitet. Aber die Zahlen sind nicht das Entscheidende. Der Unterschied in der Antwortqualität ist es.

Vorher: Die KI lieferte oberflächliche Ergebnisse. Sie fand zwar relevante Textpassagen, aber ohne den nötigen Kontext. Bei komplexen Rechtsfragen kam sie zu falschen Schlüssen – weil isolierte Informationen nicht ausreichen.

Nachher: Durch eine intelligente Aufbereitung der Dokumente versteht die KI jetzt Zusammenhänge. Die Ergebnisse sind präzise und zuverlässig. Das hat das Produkt von "interessanter Prototyp" zu "produktionsreif" gebracht.

Konkret kann das System jetzt:

Relevante Präzedenzfälle finden – auch bei komplexen Fragestellungen
Vollständige Antworten liefern – mit dem nötigen Kontext für fundierte Entscheidungen
Gezielt nach Rechtsgebiet suchen – für maximale Relevanz

Key Learnings

"Docling ermöglicht es, die volle Struktur von Dokumenten zu erhalten. Das hat unsere RAG-Qualität grundlegend verbessert."

1. Struktur > Roher Text

Die Beibehaltung der Dokumentstruktur hat unser RAG-System deutlich genauer gemacht. Überschriften werden zu natürlichen Chunk-Grenzen. Listen bleiben als Listen.

2. Kontext schlägt Keyword-Matching

Ein Treffer allein bringt nichts. Erst der Kontext macht ihn nützlich. Unsere Aufbereitung stellt sicher, dass die KI nicht nur findet, sondern auch versteht.

3. OCR überspringen wenn möglich

Unsere PDFs hatten Textebenen. Das Deaktivieren von OCR machte die Verarbeitung 10x schneller ohne Qualitätsverlust.

4. Domänenspezifische Nachbearbeitung

Docling gibt sauberes Markdown. Was danach kommt, hängt von der Domäne ab. Für juristische Dokumente haben wir eine Nachbearbeitung entwickelt, die auf die Besonderheiten rechtlicher Argumentation zugeschnitten ist. In anderen Domänen wie technische Dokumentation, Compliance oder Vertragsmanagement wären andere Ansätze relevant.

Was kommt als Nächstes

Wir arbeiten kontinuierlich an der Verbesserung unserer Pipeline. Im Fokus: Fortgeschrittene Chunking-Strategien und die Erschließung weiterer Dokumenttypen wie Gerichtsentscheidungen und Gesetzestexte.

Erst Recht nutzt KI, um Rechtsberatung zugänglich zu machen. Unser Multi-Agent-System analysiert Ihre rechtliche Situation und gibt umsetzbare Empfehlungen.

Verwendete Tools:

Docling

Arbeiten Sie an einem ähnlichen Problem? Große Dokumentenbestände für RAG aufbereiten? Schreiben Sie mir, ich helfe gerne bei der Architektur oder Implementierung.

Vom PDF-Chaos zur präzisen Rechts-KI: Wie wir 1000+ Dokumente mit Docling strukturiert haben