MIT löst KI-Halluzinationen? Calibration-Reward erklärt

Eine neue Studie aus Cambridge verspricht zuverlässigere Modelle durch kalibrierte Belohnungssignale. Was sie wirklich zeigt – und was das für Entwickler heute bedeutet.

Die Antwort vorweg: Nein. Aber das, was MIT in Beyond Binary Rewards: Training LMs to Reason about Their Uncertainty tatsächlich gezeigt hat, ist interessanter als die Schlagzeile. Die Autoren – Damani, Puri, Slocum, Shenfeld, Choshen, Kim und Andreas – belegen, dass die Art, wie wir Reasoning-Modelle aktuell trainieren, Halluzinationen nicht nur zulässt, sondern aktiv produziert. Und sie haben einen Fix für eine bestimmte Klasse des Problems.

Das Muster, das jeder Entwickler kennt

Wer mit Claude, GPT oder DeepSeek-R1 produktiv arbeitet, kennt das Bild: Das Modell antwortet mit absoluter Sicherheit – und liegt komplett daneben. Andrej Karpathy hat dieses Verhalten in mehreren Posts beschrieben, und meine letzte Analyse einer CLAUDE.md mit 25.000 Sternen war im Kern eine Sammlung von Verhaltensregeln gegen genau dieses Muster.

Das MIT-Paper liefert jetzt die Erklärung auf Trainings-Ebene. Die These in einem Satz: Reinforcement Learning mit binären Korrektheits-Signalen – der heutige Standard für Reasoning-Modelle wie o1, DeepSeek-R1 oder die Qwen-Reasoning-Serie – belohnt Raten genauso wie Wissen. Wer abstinent bleibt, wird genauso bestraft wie wer falsch liegt. Konsequenz: Modelle lernen, mit Selbstvertrauen zu bluffen.

Die Autoren formulieren das in der Einleitung sehr direkt: Reasoning-Modelle zeigen nach RL-Training "schlechtere Kalibrierung und höhere Halluzinations-Raten verglichen mit dem Basis-Modell". Der Trainingsschritt, der die Modelle besser im Lösen schwerer Aufgaben macht, macht sie gleichzeitig unzuverlässiger im Eingestehen, wenn sie etwas nicht wissen.

Warum binäre Belohnung Bluffen trainiert

Der Kern der Sache lässt sich in einem Diagramm zeigen. Links: das Standard-Setup. Rechts: der Vorschlag der Autoren.

Links: Unter der Standard-Belohnung ist die Konfidenz des Modells egal – ein selbstsicher falscher und ein zögernd richtiger Output sind exakt gleich viel wert. Rechts: Die Calibration-Reward bestraft selbstsicher-falsche Antworten und belohnt kalibrierte Konfidenz. Nach Damani et al. 2025, Figure 2.

Im linken Diagramm ist die Belohnung eine Stufenfunktion: 1 wenn die Antwort stimmt, 0 wenn nicht. Die Konfidenz-Variable q kommt im Reward gar nicht vor. Das Modell hat keinen Anreiz, ehrlich über seine Unsicherheit zu sprechen – es kann nur durch Raten gewinnen. Die Autoren formalisieren das als das eigentliche Trainingsziel: maximiere Korrektheit, ignoriere alles andere.

Im rechten Diagramm wird die Belohnung selbst zu einer Funktion der Konfidenz. Eine richtige Antwort mit q=1.0 bekommt vollen Reward. Eine richtige Antwort mit q=0.3 bekommt nur Teil-Reward – das Modell hatte recht, aber wusste es nicht. Eine falsche Antwort mit q=0.9 wird hart bestraft – das Modell hat selbstbewusst gelogen. Eine falsche Antwort mit q=0.1 ("ich rate nur") bekommt nur eine milde Strafe.

Der Fix: RLCR in einem Absatz

Die Autoren nennen ihr Verfahren RLCR (Reinforcement Learning with Calibration Rewards). Die Belohnungsfunktion ist:

R = Korrektheit + (1 − (q − Korrektheit)²)

Der hintere Term ist der Brier-Score, eine seit Jahrzehnten in der Wettervorhersage etablierte Regel zur Bewertung kalibrierter Wahrscheinlichkeiten. Theorem 1 des Papers beweist die zentrale Eigenschaft: diese Reward-Funktion maximiert gleichzeitig Genauigkeit und Kalibrierung – ohne Tradeoff. Das Modell lernt nicht, lieber unsicher als sicher zu sein. Es lernt, eine Konfidenz auszugeben, die der tatsächlichen Erfolgswahrscheinlichkeit entspricht.

In der Praxis sieht der Output dann so aus (vereinfacht aus dem Paper, Figure 1a):

<think> Die Frage zielt auf den Eurovision-Beitrag, mit dem Lulu 1969 das UK vertrat […] </think>
<answer> "Boom Bang-a-Bang" </answer>
<analysis> Die Unsicherheit ist hoch: Lulu vertrat das UK 1969, der genaue Song ist aber nicht weit verbreitet bekannt […] </analysis>
<confidence> 0.3 </confidence>

Vier strukturierte Felder: Reasoning, Antwort, eine Selbst-Analyse der Unsicherheit, eine numerische Konfidenz. Trainiert wird das Modell darauf, dass diese Konfidenz nicht beliebig ist, sondern statistisch zur Realität passt.

Die Zahlen, die zählen

0.37 → 0.03

ECE HotpotQA

0.26 → 0.10

ECE Math

~63 %

Accuracy gehalten

12×

bessere Kalibrierung

Auf HotpotQA – Mehr-Hop-Fragen über Wikipedia – sinkt der Expected Calibration Error von 0.37 auf 0.03. Anders gelesen: ein RLVR-trainiertes Modell, das mit Konfidenz 0.9 antwortet, liegt im Schnitt zu 53 % richtig. Ein RLCR-Modell mit der gleichen Konfidenz trifft die echte Erfolgsrate fast exakt. Auf der Math-Suite (GSM8K, MATH500, Big-Math) fällt der ECE von 0.26 auf 0.10. Die Genauigkeit bleibt dabei praktisch unverändert.

Das interessanteste Ergebnis steckt in den Out-of-Distribution-Tests. Wenn man die trainierten Modelle auf neuen Datensätzen evaluiert (TriviaQA, SimpleQA, GPQA, CommonsenseQA), passiert etwas Verstörendes: Standard-RL macht die Kalibrierung nicht nur nicht besser, es macht sie schlechter als das untrainierte Basis-Modell. RLCR ist die einzige Methode im Vergleich, die ihre Kalibrierungs-Gewinne auf neue Aufgaben überträgt.

Als Bonus zeigen die Autoren noch, dass die verbalisierte Konfidenz für Test-Time-Scaling nutzbar ist: konfidenz-gewichtete Mehrheitsabstimmung schlägt sowohl Vanilla-Mehrheitsabstimmung als auch reine Max-Konfidenz-Auswahl. Wer ohnehin self-consistency oder Best-of-N verwendet, bekommt aus der gleichen Trainingsmethode automatisch ein besseres Voting-Signal.

Hat MIT also Halluzinationen gelöst? (Der ehrliche Teil)

Drei Dinge sollte man im gleichen Atemzug nennen:

Was es löst

Kalibrierung auf Aufgaben mit verifizierbarer Ground Truth – QA, Mathematik, strukturiertes Reasoning. Modelle, die so trainiert sind, wissen statistisch verlässlich, wann sie raten.

Was es nicht löst

Offene faktische Halluzinationen in Domänen ohne Ground Truth. RL braucht ein Korrektheits-Signal. "Fasse meine Codebase zusammen" oder "schreibe einen Marketing-Text über X" sind keine verifizierbaren Tasks – hier hilft das Verfahren nicht direkt.

Skalen-Vorbehalt

Trainiert wurde auf Qwen2.5-7B. Ob die Effekte bei Frontier-Scale-Modellen genauso stabil sind, ist offen. Die theoretischen Eigenschaften (Theorem 1) gelten unabhängig von der Modellgröße, die empirischen Generalisierungseffekte nicht zwangsläufig.

Der eigentliche Punkt liegt aber tiefer: Binäre Belohnungssignale sind aktiv schädlich für Kalibrierung. Das ist eine Erkenntnis, mit der das gesamte Post-Training-Feld sich auseinandersetzen muss – einschließlich der Labs, deren Modelle wir heute in Produktion verwenden. Die Forschung hat damit weniger ein Loch gestopft als einen systematischen Fehler im aktuellen Trainings-Paradigma offengelegt.

Was Entwickler heute schon tun können

Bis RLCR in Frontier-Modellen ankommt – wenn es das tut – vergehen Monate bis Jahre. Aber das Fehlermuster, das die Studie diagnostiziert, lässt sich auf der Anwendungs-Ebene zumindest teilweise abfedern:

Konfidenz im Prompt verlangen. Die Modelle sind nicht perfekt kalibriert, aber wer sie zwingt, eine Konfidenz mit auszugeben, bekommt zumindest ein Signal, an dem sich nachgelagerte Logik orientieren kann. Schwellwert setzen, niedrige Konfidenz an Validierung weiterleiten.
Niedrig-Konfidenz-Outputs in Agent-Systemen routen. Bei Multi-Step-Agenten sollten kritische Entscheidungen mit niedriger Selbsteinschätzung an Verifikations-Schritte oder menschliche Reviews weitergegeben werden.
Self-Consistency mit Confidence-Weighting. Wer Best-of-N oder Majority-Vote verwendet, sollte Stimmen mit der vom Modell gemeldeten Konfidenz gewichten. Das ist das gleiche Voting-Schema, das im Paper besser abschneidet als reine Mehrheitsabstimmung.
CLAUDE.md-Regeln gegen Bluffen. Die "Frag nach, wenn mehrdeutig"-Regel, die Karpathy in seinen Coding-Beobachtungen vorschlägt, ist im Rückblick eine Verhaltens-Korrektur für genau das Trainings-Problem, das dieses Paper auf RL-Ebene diagnostiziert. Beide Ansätze adressieren die gleiche Grundpathologie aus unterschiedlichen Richtungen.

Das eigentliche Ergebnis

MIT hat KI-Halluzinationen nicht gelöst. Sie haben gezeigt, dass die Art, wie wir Modelle trainieren, sie systematisch produziert – und dass eine kleine Änderung am Reward-Signal mathematisch beweisbar Modelle erzeugt, die sowohl genauer als auch ehrlicher über ihre Grenzen sind.

Das ist größer als die Schlagzeile. Eine Schlagzeile verspricht ein Ende des Problems. Diese Studie liefert eine andere Diagnose: Das Problem ist im Training selbst angelegt. Wer das verstanden hat, weiß auch, woran man ihn als Anwender erkennt – und was man auf der Prompt- und System-Ebene dagegen tun kann, lange bevor das nächste Frontier-Modell den Fix in der Architektur mitbringt.

Quellen:

arXiv 2507.16806 MIT News

Bauen Sie an KI-Systemen, in denen Modell-Konfidenz und Halluzinations-Risiko eine Rolle spielen? Lassen Sie uns sprechen. Ich helfe beim Design von Agent-Architekturen, die Unsicherheit als Signal behandeln statt sie zu verstecken.

MIT löst KI-Halluzinationen?