KI beurteilt KI: LLMs als Tools zur Evaluierung von RAG-Systemen

Retrieval Augmented Generation-Systeme (RAG-Systeme) gewinnen zunehmend an Bedeutung. „LLM-as-a-Judge" bietet einen innovativen Ansatz zur automatisierten Evaluierung, indem große Sprachmodelle (LLMs; Large Language Models) zur Beurteilung der Antworten eingesetzt werden. Sie imitieren menschliche Bewertungen und bieten dadurch eine flexible, skalierbare und effiziente Alternative zu traditionellen Methoden. Doch wie funktioniert dieser Ansatz genau? Welche Metriken kommen zum Einsatz und welche Herausforderungen gilt es zu beachten?

Warum die Bewertung von RAG-Systemen komplex ist

Die Qualität einer Antwort zu beurteilen, klingt zunächst einfach – doch hinter dieser scheinbar simplen Frage verbirgt sich eine immense Komplexität. Denn natürliche Sprache ist nuanciert, vieldeutig und stark kontextabhängig. Eine perfekte Antwort existiert selten und die Bewertung hängt oft von individuellen Erwartungen und dem spezifischen Anwendungsfall ab. Besonders herausfordernd wird dies bei RAG-Systemen, da hier nicht nur die Qualität der generierten Sprache, sondern auch Faktoren wie die Relevanz der abgerufenen Informationen bewertet werden müssen.

RAG-Systeme bestehen aus zwei wesentlichen Komponenten:

Retrieval-Modul: Sucht relevante Informationen aus einer großen Wissensbasis.
Generierungsmodul: Formuliert aus den abgerufenen Informationen eine kohärente Antwort.

Die Bewertung wird dadurch erschwert, dass beide Module optimal zusammenarbeiten müssen, um eine qualitativ hochwertige Antwort zu erzeugen. Dies führt zur sogenannten „RAG-Triad"¹, die drei zentrale Bewertungsdimensionen abdeckt:

Antwortrelevanz: Beantwortet die generierte Antwort die ursprüngliche Frage?

Kontextrelevanz: Sind die abgerufenen Informationen aus der Wissensbasis relevant für die Anfrage?

Faktentreue: Basiert die Antwort aus Informationen aus dem Kontext oder wurden Informationen halluziniert?

Ein System kann beispielsweise eine relevante Antwort generieren, die jedoch faktisch falsch ist – oder eine faktentreue Antwort, die aber nicht direkt auf die Frage eingeht.

Traditionelle Methoden der Evaluierung

Die Bewertung von RAG-Systemen kann auf verschiedene Weise erfolgen. Traditionell basieren Evaluierungsmethoden auf manuellen Analysen durch Expert:innen, deterministischen Metriken oder nutzerbasierten Methoden.

Manuelle Evaluierung

Eine klassische Methode zur Bewertung von RAG-Systemen ist die manuelle Analyse durch menschliche Expert:innen. Diese bewerten beispielsweise die Relevanz, Korrektheit oder Verständlichkeit der generierten Antworten anhand definierter Kriterien. Manuelle Evaluierungen liefern oft besonders präzise Einschätzungen der Systemleistung, sind jedoch zeitaufwändig, teuer und schwer zu skalieren.

Deterministische Metriken

Um die Effizienz der Evaluierung zu steigern, werden oft deterministische Metriken eingesetzt, die automatisiert berechnet werden können. Diese lassen sich bei der Beurteilung von RAG-Systemen in zwei Hauptkategorien unterteilen:

1. Retrieval-Metriken

Da RAG-Systeme aus externen Quellen relevante Informationen abrufen, ist die Qualität des Retrievals entscheidend. Häufig verwendete Metriken zur Bewertung des Abrufprozesses sind:

Precision@k²: Misst den Anteil der relevanten Dokumente unter den ersten k abgerufenen Ergebnissen. Die Formel lautet:

Diese Metrik gibt an, wie viele der zurückgegebenen Ergebnisse tatsächlich relevant sind. Oder anders formuliert: Precision „bestraft" irrelevante Dokumente in der Ausgabe.

Recall@k2: Bestimmt den Anteil der relevanten Dokumente, die unter den ersten k Ergebnissen enthalten sind, relativ zur Gesamtzahl relevanter Dokumente im Korpus:

Recall@k ist besonders wichtig, wenn es darauf ankommt, dass möglichst viele der relevanten Dokumente gefunden werden. Oder anschaulich gesagt: Recall „bestraft" fehlende relevante Dokumente in der Ausgabe.

Beispiel:

Nehmen wir an, dass Experten die Dokumente A, C und E als relevant für eine Anfrage identifiziert haben. Das Retrieval-Modul ruft jedoch die Dokumente A, B, C, D und E ab. Dann ergibt sich für Precision und Recall Folgendes:

2. Generations-Metriken

Neben der Qualität des Retrievals muss auch die generierte Antwort selbst bewertet werden. Hierfür werden häufig textbasierte Ähnlichkeitsmetriken verwendet:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)³: Diese Metrik wird oft für die Bewertung von Zusammenfassungen genutzt. ROUGE-N misst die Überlappung der n-Gramme zwischen generiertem Text und Referenztext. n-Gramme sind Sequenzen von n aufeinanderfolgenden Wörtern in einem Text – zum Beispiel einzelne Wörter (Unigramme), Wortpaare (Bigramme) oder Dreiergruppen (Trigramme) und so fort.

Beispiel:

Nehmen wir an, dass ein KI-Modell den Satz „KI beurteilt KI“ generiert. Zerlegen wir diesen in einzelne Wörter (Unigramme), so erhalten wir: „KI“, „beurteilt“, „KI“. Der Referenztext lautet hingegen „KI beurteilt sich selbst„, mit den Unigrammen: „KI“, „beurteilt“, „sich“, „selbst“. Um den ROUGE-1-Wert zu berechnen, betrachten wir die Übereinstimmungen der Unigramme. Somit ergibt sich:

Ein hoher ROUGE-Score bedeutet, dass der generierte Text eine große Ähnlichkeit mit dem Referenztext aufweist. Obwohl ROUGE nützlich ist, hat es Einschränkungen, insbesondere bei der Erfassung semantischer Ähnlichkeiten. Da ROUGE auf der exakten Übereinstimmung von n-Grammen basiert, kann es alternative Formulierungen oder Synonyme nicht adäquat berücksichtigen.

Daneben gibt es noch weitere n-Gram-basierte Metriken wie BLEU⁴, das im Gegensatz zu ROUGE die Übereinstimmung der generierten Antwort mit dem Referenztext aus der Perspektive der Precision bewertet — also misst, wie viele der verwendeten n-Gramme tatsächlich im Referenztext vorkommen. METEOR berücksichtigt darüber hinaus auch Wortreihenfolge und Synonyme, um die genannten Einschränkungen zu überwinden. Dennoch bleibt die Herausforderung bestehen, die tiefere semantische Bedeutung und Kontextabhängigkeit zu erfassen.

Nutzerbasierte Metriken

Neben objektiven Metriken werden oft nutzerzentrierte Ansätze verwendet. Dazu gehören:

User Satisfaction: Nutzerfeedback kann direkt genutzt werden, um die Qualität eines RAG-Systems zu bewerten, etwa durch Befragungen oder Ratings.

Verweildauer: Die Zeit, die ein:e Nutzer:in mit dem Lesen oder Interagieren mit der generierten Antwort verbringt, kann ein indirekter Indikator für deren Qualität und Relevanz sein. Eine längere Verweildauer kann darauf hindeuten, dass die Antwort informativ und hilfreich ist, während eine sehr kurze Verweildauer darauf schließen lässt, dass sie unverständlich, irrelevant oder unzureichend ist. Allerdings kann die Verweildauer auch von anderen Faktoren wie der Komplexität der ursprünglichen Frage oder den Lesegewohnheiten des Nutzers beeinflusst werden.

Diese traditionellen Methoden haben sich bewährt, stoßen jedoch oft an Grenzen. Während deterministische Metriken wie ROUGE oder BLEU Schwierigkeiten haben, tiefere semantische Bedeutungen und Kontextverständnis umfassend zu erfassen, sind manuelle Bewertungen durch Expert:innen zwar präziser, aber zeitaufwendig und schwer zu skalieren. Nutzerbasierte Metriken hingegen berücksichtigen die tatsächliche Relevanz und Verständlichkeit aus Sicht der Anwender:innen, lassen aber nur bedingt feingranulare Rückschlüsse zu. Hier setzt der Ansatz „LLM als Richter“ („LLM-as-a-Judge“) an, um eine tiefere und flexiblere Evaluierung von RAG-Systemen zu ermöglichen.

LLM-as-a-Judge: KI bewertet KI

In den letzten Jahren hat die Leistungsfähigkeit von LLMs enorme Fortschritte gemacht. Diese Entwicklungen eröffnen neue Möglichkeiten, LLMs auch als Bewertungsinstanzen einzusetzen, um die Qualität von Antworten effizient beurteilen zu können.

Der Bewertungsprozess funktioniert wie folgt:

Erstellung eines Testdatensatzes: Zu Beginn wird ein hochwertiger Testdatensatz erstellt, der möglichst viele Szenarien des RAG-Systems abdeckt. Schon in diesem Schritt ist es wichtig zu berücksichtigen, welche Metriken später zur Evaluierung genutzt werden sollen, da sich dies auf die Gestaltung des Datensatzes auswirkt. So erfordern referenzbasierte Metriken zusätzliche Referenzen wie ideale Antworten oder relevante Dokumente, die in der Regel von Menschen bereitgestellt werden müssen. Referenzfreie Metriken hingegen basieren ausschließlich auf den Informationen aus dem RAG-System, also der Anfrage, der Antwort und dem Kontext. Ihr Vorteil liegt in der Möglichkeit, sie auch für Online-Evaluierungen im Produktivbetrieb einzusetzen. Allerdings erfassen sie möglicherweise nicht alle relevanten Aspekte der Antwortqualität.
Erstellung von Bewertungsprompts: Damit das LLM eine fundierte Beurteilung abgeben kann, benötigt es präzise formulierte Bewertungsprompts. Diese enthalten Anweisungen zur gewünschten Bewertungsform und können flexibel Kriterien wie Faktentreue, Relevanz oder Klarheit definieren, je nach den spezifischen Anforderungen. Neben der direkten Bewertung einzelner Antworten ist auch der Vergleich zweier Modellausgaben üblich, bei dem das LLM anhand bestimmter Kriterien die bessere auswählt. Die Qualität der Prompts kann durch verschiedene Methoden optimiert werden, etwa durch Few-Shot-Learning mit Beispielen oder den Einsatz von Chain-of-Thought-Techniken, um das Modell zu einer tiefergehenden Analyse zu bewegen.
Durchführung der Bewertung: Sobald der Testdatensatz und die Bewertungsprompts festgelegt sind, muss ein geeignetes LLM für die Beurteilung ausgewählt werden. Dabei sollte ein ausreichend großes Modell zum Einsatz kommen, das über ein tiefes Sprachverständnis verfügt. Andernfalls können die Ergebnisse unzuverlässig ausfallen und die Qualität der Bewertung beeinträchtigen.

Das folgende Beispiel zeigt ein Evaluierungsprompt mit klaren Anweisungen zu Beginn sowie einer strukturierten Übergabe der relevanten Informationen aus dem RAG-System, die aus der Verarbeitung einer Anfrage aus dem Testdatensatz hervorgehen:

Metriken für LLM-as-a-Judge

Da die Evaluierungsanweisungen bei LLM-as-a-Judge völlig frei formuliert werden können, sind prinzipiell alle denkbaren Metriken möglich. Grundsätzlich lassen sich dabei inhaltliche Metriken wie Faktentreue und Relevanz von stilistischen Metriken wie Ton und Verständlichkeit unterscheiden. Zudem muss festgelegt werden, ob die Bewertung binär (Ja/Nein), auf einer Skala oder durch eine mehrstufige Analyse mit anschließender Zusammenführung in eine Metrik erfolgen soll.

Ein Beispiel dafür ist die Faktentreue. Diese könnte direkt anhand der Antwort des RAG-Systems und des bereitgestellten Kontexts mit „Ja“ oder „Nein“ bewertet werden. Alternativ wäre eine Skala von 1 (überhaupt nicht durch den Kontext belegt) bis 5 (vollständig durch den Kontext belegt) denkbar. Eine weitere Möglichkeit besteht darin, einzelne Aussagen aus der Antwort zu extrahieren, diese separat auf ihre Wahrheitsgemäßheit zu prüfen und den finalen Score nach folgender Formel zu berechnen:

Ein weiteres gängiges Maß ist die Kontextrelevanz, die das Retrieval bewertet. Auch hier kann eine binäre, skalare oder mehrstufige Evaluierung erfolgen. In der mehrstufigen Variante werden zunächst relevante Aussagen aus dem Kontext extrahiert und daraufhin überprüft, ob sie zur ursprünglichen Anfrage passen. Der Kontextrelevanz-Score ergibt sich dann aus:

Die Antwortrelevanz wird analog berechnet, jedoch basierend auf den extrahierten Aussagen aus der generierten Ausgabe:

Neben diesen Metriken lassen sich zahlreiche weitere Bewertungsmethoden definieren. Beispielsweise kann die Instruktionstreue messen, inwieweit die generierte Antwort den vorgegebenen Anweisungen im Prompt folgt. Ein Verzerrungs-Score könnte bewerten, wie viele Aussagen auf Voreingenommenheiten oder Bias hindeuten. Letztlich hängt die Wahl der Metriken vom spezifischen Anwendungsfall ab und sollte gezielt an die jeweiligen Anforderungen angepasst werden.

Chancen und Herausforderungen von LLM-as-a-Judge

Die Nutzung von LLM-as-a-Judge bringt einige Vorteile mit sich, aber auch die Herausforderungen sollten nicht unberücksichtigt bleiben.

Chancen:

Effizienz: Der Einsatz von LLMs für die automatisierte Bewertung ermöglicht schnelle und kostengünstige Beurteilungen. Im Vergleich zur manuellen Analyse durch Menschen entfällt der zeitaufwendige Bewertungsprozess, während dieselben Kriterien wie bei menschlichen Bewertungen angewendet werden können.

Skalierbarkeit: LLMs können große Datenmengen in kurzer Zeit bewerten. Bewertungsprozesse können problemlos an steigende Anforderungen angepasst werden.

Anpassbarkeit: Die Bewertungskriterien können äußerst flexibel festgelegt werden. LLMs ermöglichen die Integration von domänenspezifischen Metriken, die gezielt auf die Anforderungen bestimmter Branchen oder Anwendungen abgestimmt sind.

Herausforderungen:

Nicht-Determinismus: Da LLMs auf Wahrscheinlichkeitsverteilungen basieren, kann die gleiche Eingabe zu unterschiedlichen Ausgaben führen, selbst bei identischen Prompts. Diese Eigenschaft erschwert die Reproduzierbarkeit der Bewertungen bei wiederholten Evaluierungsdurchläufen. Daher sollte darauf geachtet werden, wo möglich, deterministische LLM-Parameter (z. B. geringe Temperature, festgelegte Seeds) zu verwenden. Alternativ kann man die Bewertung mehrfach (z. B. 10 Mal) durchführen und Mittelwert sowie Standardabweichung der Metriken berechnen. Damit ist allerdings mehr Aufwand und höhere Kosten verbunden.

Biases: LLMs können systematische Vorurteile aufweisen, die sich negativ auf die Bewertungen auswirken. Da diese Modelle auf großen Textkorpora trainiert werden, spiegeln sie die in den Trainingsdaten enthaltenen Verzerrungen wider. Zum Beispiel kann ein Verbosity Bias dazu führen, dass längere, prosaartige Texte bevorzugt werden, was die Objektivität der Bewertung schmälert und möglicherweise kurz und prägnant formulierte Antworten benachteiligt.

Erklärbarkeit: Die intransparenten Entscheidungsprozesse der LLMs erschweren die Akzeptanz der Bewertungen. Nutzer benötigen oft Einsicht in die Bewertungslogik, um Vertrauen in die Ergebnisse zu haben. Da die Bewertungslogik allerdings undurchsichtig ist, kann es zu Unsicherheiten kommen.

Mismatch zwischen Test- und Real-World-Daten: Eine zu starke Fokussierung auf definierte Metriken kann zu einem Missverständnis der tatsächlichen Nutzerbedürfnisse führen. Wenn die Evaluation zu stark auf theoretischen Metriken basiert, besteht die Gefahr, dass wichtige Aspekte der Nutzererfahrung und -erwartungen nicht erfasst werden.

Fazit

Die Qualitätssicherung in der Entwicklung von RAG-Systemen ist entscheidend, um zuverlässige und robuste KI-Anwendungen zu schaffen. LLM-as-a-Judge bietet eine Möglichkeit, diese Qualität effizient und skalierbar zu evaluieren – und erreicht dabei laut Studien eine hohe Übereinstimmung mit menschlichen Bewertungen.⁵⁶

Dennoch bleibt es wichtig, die Schwächen dieses Ansatzes im Auge zu behalten und kontinuierlich an der Qualität der Testdatensätze sowie der Transparenz der Bewertungen zu arbeiten.

Möchtet ihr „LLM-as-a-Judge“ für eure KI-Projekte nutzen? Sprecht uns an – wir unterstützen euch gerne bei der Implementierung!

Quellen

¹ TruLens. 2025. RAG Triad. URL: https://www.trulens.org/getting_started/core_concepts/rag_triad/

² Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. 2008. Introductionto Information Retrieval.Cambridge University Press.

³ Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out, pages 74–81, Barcelona, Spain. Association for Computational Linguistics.

⁴ Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. Association for Computational Linguistics.

⁵ Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, and Ion Stoica. 2023. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. arXiv. URL: https://arxiv.org/abs/2306.05685.

⁶ Andrea Sottana, Bin Liang, Kai Zou, and Zheng Yuan. 2023. Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 8776–8788, Singapore. Association for Computational Linguistics.

Seminarempfehlung

GRUNDLAGEN MODERNER DATENNUTZUNG - DATA LITERACY DATA-LIT

Mehr erfahren