Wie Sie anhand einer entropiebasierten Bewertung erkennen können, wann und wo Ihr Modell Daten erfindet – zusammengefasst in unserem Python-Paket „artefactual“.
Hinweis: Dieser Artikel knüpft an den Beitrag unserer Freunde von Ardian an, in dem dargelegt wird, wie wichtig AI verantwortungsvolle AI für Finanzinstitute AI . Schauen Sie sich diesen Beitrag unbedingt an!
Das Problem der Halluzinationen
Große Sprachmodelle sind erstaunlich leistungsfähig. Sie fassen zusammen, übersetzen, denken logisch und programmieren (besser als ich). Aber im Gegensatz zu mir sind sie auch dafür berüchtigt, mit beunruhigender Selbstsicherheit Fakten zu erfinden.
In der Literatur zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) bezeichnet man als „Halluzination“ jeden vom Modell generierten Inhalt, der sachlich falsch, unsinnig oder nicht der vorgegebenen Quelle entsprechend ist, dabei aber vollkommen plausibel wirkt. Die Folgen reichen von harmlos (eine falsche Antwort in einem Quiz) bis hin zu schwerwiegend (eine erfundene Rechtsquelle, eine falsche Medikamentendosis). Da Unternehmen LLMs in Produktionssysteme integrieren, verschiebt sich die Frage von „Kann dieses Modell nützlichen Text generieren?“ hin zu „Können wir dem vertrauen, was es gerade gesagt hat?“
Nehmen wir ein konkretes Beispiel. Sie arbeiten bei einem Finanzinstitut und fragen Ihren lokalen LLM:
„Wie hoch war der Nettoumsatz von Emerson Electric im Jahr 2023?“

Das Modell antwortet: „Emerson Electric hat für das Geschäftsjahr 2023 einen Nettoumsatz von rund 15,2 Milliarden Dollar ausgewiesen.“ Klingt plausibel. Aber stimmt das auch? Du hast den Geschäftsbericht nicht vor dir. Du hast keine Referenzwerte, mit denen du vergleichen könntest. Du hast nur die Ausgabe des Modells – und Zweifel.
Das ist das Umfeld, in dem wir arbeiten. Kein Orakel. Keine Referenzantwort zum Zeitpunkt der Schlussfolgerung. Nur eine Antwort des großen Sprachmodells und die Metadaten, die es bei der Generierung erzeugt. Das Ziel: zu quantifizieren, wie wahrscheinlich es ist, dass diese Ausgabe auf einer einzigen Generierungsrunde beruht.
Halluzinationen erkennen: Das ist schwieriger, als es klingt
Der Brute-Force-Ansatz
Ein naheliegender Ansatz besteht darin, dem Modell dieselbe Frage mehrmals zu stellen und zu prüfen, ob die Antworten übereinstimmen. Wenn fünf von sechs Durchläufen „15,2 Milliarden Dollar“ und einer „18,7 Milliarden Dollar“ als Antwort liefern, vermittelt der Konsens ein gewisses Maß an Vertrauen. Dies ist das Prinzip hinter Methoden wie SelfCheckGPT, die die Konsistenz über mehrere zufällig ausgewählte Ausgaben hinweg messen – ein Ansatz im „Monte-Carlo-Stil“ zur Erkennung von Halluzinationen.
Es funktioniert. Allerdings hat es zwei wesentliche Nachteile:
- Kosten. Mit jeder weiteren Generierung vervielfacht sich Ihr Inferenzbudget. Für SelfCheckGPT mit 10 Beispielen zahlen Sie etwa das Zehnfache der Rechenkosten, zuzüglich der Kosten für ein Modell zur semantischen Ähnlichkeit. Bei großem Umfang ist dies unerschwinglich.
- Granularität. Multi-Shot-Verfahren arbeiten auf Sequenzebene. Sie sagen einem zwar, dass „diese Antwort unzuverlässig erscheint“, aber nicht, welcher Teil der Antwort problematisch ist. Eine Antwort könnte zu 90 % korrekt sein, wenn sich in der Mitte eine einzige erfundene Zahl versteckt. Man möchte gerne wissen, wo genau.
Diese Einschränkungen haben uns dazu veranlasst, nach einem anderen Signal zu suchen – einem, das kostengünstig ist, mit einem einzigen Durchlauf auskommt und auf Token-Ebene funktioniert (den einzelnen Wortbestandteilen, mit denen das LLM intern arbeitet).
Das Signal ist bereits da
Wenn ein LLM Text generiert, gibt es nicht einfach nur Tokens aus. Bei jedem Schritt berechnet es eine Wahrscheinlichkeitsverteilung über sein gesamtes Vokabular: „Angesichts der Eingabeaufforderung und allem, was ich bisher generiert habe, wie wahrscheinlich ist jedes mögliche nächste Token?“Das Token mit der höchsten Wahrscheinlichkeit wird ausgewählt. Der Rest wird verworfen. Doch diese Wahrscheinlichkeiten (und genauer gesagt, wie stark sie verteilt sind) enthalten Informationen über das interne Konfidenzniveau des Modells.
Ist das Modell sehr sicher, konzentriert sich der Großteil der Wahrscheinlichkeitsmasse auf ein einzelnes Token. Zögert das Modell, verteilt sich die Wahrscheinlichkeit auf viele Kandidaten. Genau diese Streuung misst die Entropie.
Entropie: ein kurzer Exkurs
Die Entropie ist eine informationstheoretische Größe, die die Ungewissheit einer Wahrscheinlichkeitsverteilung misst. Das Prinzip ist leicht zu verstehen. Stell dir drei Schachteln vor. In einer davon befindet sich ein Keks. Du musst erraten, in welcher.

- Szenario A: Du weißt, dass sich der Keks in Schachtel 2 befindet. Deine Unsicherheit ist gleich Null. Entropie = 0.
- Szenario B: Du hast keine Ahnung. Die Wahrscheinlichkeit für jede Schachtel beträgt 1/3. Deine Unsicherheit ist maximal. Entropie = log₂(3) ≈ 1,58 Bit.
Ersetzen Sie nun die Kästchen durch Tokens und den Keks durch das „richtige“ nächste Wort. Bei jedem Generierungsschritt steht ein LLM genau vor dieser Wahl – nur dass es statt aus drei Kästchen aus einem Wortschatz von mehr als 100.000 Tokens auswählt. Wenn das Modell sicher ist, dominiert ein Token und die Entropie ist gering. Wenn es zögert, steigt die Entropie.

Die Wahrscheinlichkeitsverteilung in zwei verschiedenen Fällen.
Die wichtigste Erkenntnis ist, dass eine hohe Entropie an einer bestimmten Token-Position mit einer höheren Fehlerwahrscheinlichkeit an dieser Stelle korreliert. Das Modell signalisiert dir durch seine Wahrscheinlichkeitsverteilung, dass es nicht sicher ist, was als Nächstes kommt. Wir müssen einfach nur zuhören.
Von Entropie zu Halluzinationswerten
EPR: Entropie-Produktionsrate
Unsere erste Kennzahl, die EPR (Entropy Production Rate), ist direkt. Für jedes Token in der generierten Sequenz berechnen wir die Entropie der Top-K-Wahrscheinlichkeiten der vom Modell vorhergesagten Token. Anschließend bilden wir den Durchschnitt über die gesamte Sequenz. Das ergibt einen einzigen Wert, der das durchschnittliche Zögern des Modells über die gesamte Antwort hinweg widerspiegelt.
Es handelt sich hierbei um eine unbeaufsichtigte Metrik: Es sind keine Labels erforderlich. In unseren Experimenten (veröffentlicht auf der ECIR 2026) erzielt EPR allein auf TriviaQA bei vier verschiedenen LLMs ROC-AUC-Werte zwischen 74 und 81. Nicht schlecht für eine Metrik, die im Grunde nichts kostet außer einem einzigen Generierungsdurchlauf.
Aber wir können es besser machen.
WEPR: Gewichtete Entropieproduktionsrate
Die rohe Entropie behandelt alle Token-Ränge gleich. Der Entropiebeitrag des Tokens auf Rang 1 (des wahrscheinlichsten) und des Tokens auf Rang 10 wird gleich gewichtet. In der Praxis enthält die Verteilung der Unsicherheit über die Ränge hinweg unterscheidende Informationen.
WEPR (Weighted EPR) ermittelt eine Reihe von Gewichten, um diese Beiträge neu auszubalancieren. Dabei werden zwei Signale verwendet:
- Die gewichtete mittlere Entropie über die gesamte Sequenz – sie gibt das allgemeine Zögern wieder.
- Der maximale Entropiebeitrag pro Rang – Erfassung von Unsicherheitsspitzen. Ein einziger Moment starker Unsicherheit kann ein typisches Merkmal einer Halluzination sein, selbst wenn der Rest der Sequenz mit großer Sicherheit generiert wurde.
Diese Merkmale werden in eine logistische Regression eingespeist, die anhand eines beschrifteten Datensatzes trainiert wurde. Die Ausgabe der Sigmoid-Funktion ist eine kalibrierte Wahrscheinlichkeit:
„Diese Antwort enthält mit einer Wahrscheinlichkeit von 86 % eine Halluzination.“

Über die Klassifizierung hinaus liefert WEPR auch Bewertungen auf Token-Ebene. Jedes Token in der generierten Sequenz erhält eine eigene Halluzinationswahrscheinlichkeit, sodass Sie genau feststellen können, welche Teile einer Antwort genauer unter die Lupe genommen werden sollten. Dies wird in Echtzeit Token für Token berechnet, während das Modell die Ausgabe generiert – Sie müssen also nicht auf die vollständige Ausgabe warten.

Was ist mit Etiketten?
Ein überwachtes Verfahren erfordert Annotationen. Das manuelle Beschriften von Tausenden von Frage-Antwort-Paaren ist zeitaufwendig. Deshalb nutzen wir einen „LLM-as-a-judge“-Ansatz: Ein separates Modell vergleicht jede generierte Antwort mit der bekannten Referenzlösung und stuft sie als richtig oder falsch ein.
Ist das zuverlässig? Wir haben dies anhand menschlicher Bewerter überprüft. Eine Gruppe von 15 Forschern hat über 1.300 Antwortpaare manuell bewertet. Die Übereinstimmung zwischen dem automatisierten Bewerter und den menschlichen Bewertern lag bei 95,7 %, mit einem Cohen-Kappa-Koeffizienten von 0,90. Die automatisierten Bewertungen sind ein zuverlässiger Ersatz für menschliches Urteilsvermögen und robust genug, um einen Halluzinationsdetektor darauf zu trainieren.
Wir stellen artefactual vor: Jetzt bist du an der Reihe.
All dies haben wir in einer Open-Source-Python-Bibliothek zusammengefasst: artefactual.
Die Bibliothek enthält vorberechnete Kalibrierungsgewichte für mehrere Modellfamilien (Mistral-Small, Falcon-3, Phi-4, Ministral-8B), sodass Sie sofort mit der Bewertung der Ausgaben beginnen können, ohne eine Trainingspipeline ausführen zu müssen. Sie wertet standardmäßig Ausgaben von vLLM, der OpenAI Chat Completions API und der OpenAI Responses API aus.
Hier ist die einfachste Anwendungsmöglichkeit:

Die Bewertungen auf Token-Ebene sind besonders nützlich für die Visualisierung. Jedes Token in der Antwort erhält eine eigene Halluzinationswahrscheinlichkeit, die Sie als Farbverlauf darstellen können – grün für sicher oder rot für unsicher. Auf einen Blick sehen Sie genau, welche Teile einer Antwort genauer unter die Lupe genommen werden sollten.
In einer RAG-Pipeline
Praktische Anwendung findet dies in der „Retrieval-Augmented Generation“. Stellen Sie sich eine Pipeline vor, die Dokumente aus einer Wissensdatenbank abruft und diese als Kontext an ein LLM weitergibt. Wenn der Abruf fehlschlägt (falsche Dokumente, fehlende Seiten, unvollständiger Kontext usw.), versucht das Modell, die Lücken aus seinem parametrischen Gedächtnis zu füllen – und genau hier schleichen sich Halluzinationen ein.
Mit „artefactual“ kannst du ein Gate hinzufügen:

Unser wissenschaftlicher Artikel in Kürze – Was wir herausgefunden haben
Wir haben EPR und WEPR an vier großen Sprachmodellen (Mistral-Small-24B, Falcon-3–10B, Phi-4, Ministral-8B) bei drei Aufgaben getestet: Erkennung von Halluzinationen bei TriviaQA, Generalisierung auf WebQuestions und Erkennung fehlender Kontexte in einem RAG-Szenario im Finanzbereich.
Einige Höhepunkte:
- WEPR schneidet durchweg besser ab als bestehende Methoden. Es übertrifft sowohl SelfCheckGPT (eine Multi-Shot-Methode, die das Zehnfache an Rechenleistung benötigt) als auch HalluDetect (ein Single-Shot-Konkurrent) bei fast allen Kombinationen aus Modell und Datensatz.
- Man braucht nicht viele Log-Wahrscheinlichkeiten. Die Leistung stagniert bei etwa K = 8–10 verfügbaren Log-Wahrscheinlichkeiten pro Token. Selbst bei eingeschränktem API-Zugriff ist das Signal erkennbar.
- Es lässt sich verallgemeinern. Das auf TriviaQA trainierte WEPR lässt sich gut auf WebQuestions und sogar auf einen spezialisierten Finanzkorpus übertragen und erkennt Fälle, in denen ein RAG-System Antworten ohne ausreichenden Kontext generiert hat.
- Es ist schnell. Die Auswertung dauert etwa 80 Mikrosekunden pro Sequenz. Im Vergleich dazu benötigt SelfCheckGPT mehr als 10 Sekunden.
In unseren Experimenten zu einer RAG-Aufgabe im Finanzbereich (Analyse von reports dem ArGiMi-Ardian-Datensatz) erreichte WEPR bei der Erkennung von Antworten, die ohne den richtigen Kontext generiert wurden, einen ROC-AUC-Wert von bis zu 93,6. Dies ist ein deutliches Signal dafür, einen zweiten Abrufdurchlauf auszulösen.
Hinweis zum Zugriff auf die Log-Wahrscheinlichkeitsfunktion:
Alles, was oben beschrieben wurde, hängt von einer Sache ab: dem Zugriff auf die Log-Wahrscheinlichkeiten auf Token-Ebene aus dem Modell. Dies ermöglicht es uns, die Entropie und damit auch die Halluzinationswerte zu berechnen.
Derzeit ist dieser Zugriff nicht gewährleistet. Anthropic stellt Log-Wahrscheinlichkeiten über seine API nicht zur Verfügung. OpenAI bietet sie für Modelle ohne Schlussfolgerungsfähigkeit an – man kann bei GPT-5.4 oder GPT-5.4-mini „top_logprobs“ abfragen, jedoch nur, wenn man den Schlussfolgerungsaufwand auf „none“ setzt. Google hingegen ermöglicht über seine „generate_content“-API den Zugriff auf alle Log-Wahrscheinlichkeiten.
Modelle mit offenem Gewicht, die über vLLM oder ähnliche Inferenz-Engines bereitgestellt werden, bieten uneingeschränkten Zugriff.
Das ist wichtig. Log-Wahrscheinlichkeiten sind ein schlankes, informationsreiches Signal. Ihre Erzeugung verursacht keine zusätzlichen Kosten (das Modell berechnet sie ohnehin während der Generierung) und sie ermöglichen eine ganze Klasse von Methoden zur Quantifizierung von Unsicherheiten – einschließlich unserer eigenen. Ein eingeschränkter Zugriff darauf zwingt die Nutzer dazu, entweder blind auf die Modellausgaben zu vertrauen oder auf kostspielige Multi-Shot-Erkennungsmethoden zurückzugreifen.
Wenn Sie in der Produktion mit großen Sprachmodellen arbeiten und Wert auf die Zuverlässigkeit der Ergebnisse legen, sollte die Verfügbarkeit von Log-Wahrscheinlichkeiten zu Ihren Kriterien für die Modellauswahl gehören. Und wenn Sie Modellanbieter sind: Die Bereitstellung von Log-Wahrscheinlichkeiten ist eine der kostengünstigsten Möglichkeiten, die Vertrauenswürdigkeit Ihrer Modelle zu erhöhen.

BLOG






