Wie vergleicht man KI-Modelle? Die beliebtesten KI-Benchmarks

Künstliche Intelligenz – insbesondere große Sprachmodelle (Large Language Models, LLMs) – haben in den letzten Jahren enorme Fortschritte gemacht. Allerdings sind auch so viele KI-Tools auf den Markt gekommen, dass man den Überblick verliert. Wie vergleicht man KI-Modelle überhaupt sinnvoll um sich zu entscheiden?

Manche Modelle glänzen bei allgemeinen Sprachaufgaben, andere überzeugen durch mathematisches oder logisches Denken. Andere lobt man dagegen für ihren sparsamen Ressourcenverbrauch oder ihre niedrige Latenz. Um diese Vielfalt objektiv bewerten zu können, braucht es einheitliche und anerkannte Benchmarks.

Doch auch diese Benchmarks haben ihre Tücken: Was genau misst ein Test wie „MMLU“? Warum kann ein Modell mit 7 Milliarden Parametern manchmal besser abschneiden als eines mit 70 Milliarden? Und welche Rolle spielt überhaupt die vielzitierte Anzahl der Parameter? Zeit ein bisschen Übersicht in den Benchmark-Dschungel zu bringen!

Was ist ein Benchmark überhaupt?

Bevor wir etwas mehr in die Tiefe gehen, klären wir die grundlegenden Begriffe und. Denn nicht jedes Testergebnis bedeutet automatisch, dass ein Modell „besser“ ist – es hängt stark davon ab, was genau gemessen wird und für welchen Zweck das Modell eingesetzt werden soll.

Ein Benchmark ist ein standardisierter Test oder eine Sammlung von Aufgaben, mit denen man die Leistungsfähigkeit eines KI-Modells objektiv und reproduzierbar bewerten kann. Benchmarks dienen dazu, Modelle unter gleichen Bedingungen zu prüfen und vergleichbar zu machen – ähnlich wie Normprüfungen in der Technik oder standardisierte Tests in der Schule.

Beim Modellvergleich zählen nicht nur „richtig oder falsch“. Auch viele andere Faktoren können verglichen werden.

Accuracy / Genauigkeit: Wie viele Aufgaben löst das Modell korrekt? Besonders relevant bei Multiple-Choice-Benchmarks.
F1-Score, Precision, Recall: Feiner granulierte Metriken für Aufgaben wie Textklassifikation oder Frage-Antwort-Systeme.
Generalisation: Wie gut überträgt sich das Modellwissen auf neue, unbekannte Aufgaben?
Robustheit: Wie stabil bleibt die Leistung bei fehlerhaften Eingaben, adversarialen Beispielen (Eingaben, die falsche Klassifizierungen bewusst herführen sollen) oder Dialekten?
Latenz & Inferenzgeschwindigkeit: Wie schnell liefert das Modell Ergebnisse – relevant für Echtzeit-Anwendungen (z. B. Chatbots).
Speicherverbrauch & Energieeffizienz: Wie viele Ressourcen braucht das Modell, um eine Aufgabe zu lösen (z. B. VRAM, FLOPs)?
Kontextlänge (Context Window): Wie viele Token (Worteinheiten) kann ein Modell gleichzeitig im „Gedächtnis“ behalten? Ein kritischer Faktor für lange Kontexte wie bei juristischen oder wissenschaftlichen Texten.

Diese Metriken sind teilweise voneinander abhängig – und teilweise widersprüchlich. Ein besonders schnelles Modell muss nicht unbedingt genau sein. Ein hochgenaues Modell wiederum kann enorme Hardwareanforderungen mit sich bringen.

Die Rolle der Parameteranzahl

Ein zentraler, oft diskutierter Wert ist die Anzahl der Parameter eines Modells. Gemeint sind damit die internen Gewichtungen in neuronalen Netzwerken, die durch Training gelernt werden. Moderne KI funktioniert nämlich oft wie das menschliche Gehirn: Die künstlichen Neuronen erkennen wiederkehrende Muster und stärken Anhand dieser die Gewichtung dieser. Faszinierenderweise macht das eine KI weitgehend zur Black Box. Im Gegensatz zu programmierten Entscheidungen lassen sich Entscheidungswege kaum nachvollziehen.
Je mehr Parameter, desto größer die Modellkapazität – und damit das potenzielle Wissen. Große Modelle (z. B. GPT-5 oder Opus 4.1) zeigen oft bessere Ergebnisse bei schwierigen Aufgaben, weil sie Muster tiefer verstehen können. Die Anzahl wird oft mit einem „B“ für das englische Billion (dt. Milliarden) angegeben. Bei GPT-5 schätzt man sogar, dass die Parameterzahl bereits die englische Trillion durchbrochen hat.

Die Skalierung hat jedoch ihre Grenzen. Ab einem gewissen Punkt steigen die Kosten und der Energiebedarf überproportional, während der Leistungszuwachs sinkt. Das nennt man das Gesetz des abnehmenden Ertrags. Moderne Architekturen wie Mixture-of-Experts (MoE) verwenden viele „spezialisierte“ Parameter, von denen pro Aufgabe nur ein Teil aktiviert wird. So kann ein Modell mit 400 Milliarden Parametern, dass aber nur die relevanten Parameter nutzt, effizienter arbeiten als ein klassisches Modell mit 100 Milliarden.

Kleinere, optimierte Modelle schneiden in bestimmten Benchmarks dennoch erstaunlich gut ab. Dies liegt oft an besserem Training, saubereren Daten oder effizienteren Architekturen.

Die beliebtesten Benchmarks für KI-/Sprachmodelle

In der Forschung und Praxis haben sich verschiedene Benchmark-Suiten etabliert, mit denen man die Fähigkeiten großer Sprachmodelle (LLMs) in unterschiedlichen Dimensionen bewerten kann. Im Folgenden stelle ich einige der bekanntesten vor – jeweils mit Beschreibung, gemessenen Aspekten sowie Stärken und Schwächen.

MMLU (Measuring Massive Multitask Language Understanding)

MMLU ist einer der am häufigsten verwendeten Benchmarks für große Sprachmodelle. Er prüft, wie gut ein Modell sein in der Vortrainingsphase gelerntes Wissen auf eine breite Palette akademischer Disziplinen anwenden kann.
Der Benchmark besteht aus etwa 16.000 Multiple-Choice-Fragen, verteilt auf 57 Themenbereiche (z. B. Mathematik, Physik, Recht, Geschichte). Modelle werden meist in Zero-Shot– und Few-Shot–Einstellungen evaluiert. Das bedeutet, sie erhalten wenig bis keine konkrete Trainingsbeispiele vor dem Test.

Da viele Modelle den klassischen MMLU-Test zunehmend gut bestehen, wurde MMLU-Pro eingeführt, mit anspruchsvolleren Fragen, bis zu 10 Antwortoptionen und Eliminierung triviale bzw. rauschenbehafteter Fragen.
Weitere Varianten wie MMLU-CF (kontaminationsfrei) versuchen, Datenlecks in Trainingsdaten zu vermeiden, um fairere Bewertungen zu ermöglichen.

Was gemessen wird

Breites Fachwissen / Allgemeinwissen
Fähigkeit zu reasoning / Schlussfolgerung in bekannten Domänen
Robustheit in vielen Domänen, nicht überangepasst auf eine einzelne Aufgabe

Stärken

Gute Vergleichbarkeit über viele Modelle hinweg
Breiter Fächerkanon erlaubt Einschätzung der Generalisierung
Einfach zu interpretierende Metrik: durchschnittlicher Anteil korrekter Antworten

Schwächen & Limitationen

Modelle könnten indirekt auf Trainingsdaten zugreifen, die dieselben oder ähnliche Fragen enthalten („Benchmark-Contamination“)
Der Schwierigkeitsgrad für moderne Modelle ist oft niedrig – viele Modelle erreichen bereits sehr hohe Werte
Begrenzte Tiefe bei reasoning-intensiven Fragen
Auswahl von Multiple-Choice kann Begrenzung sein

Humanity’s Last Exam (HLE)

Der Benchmark Humanity’s Last Exam (HLE) wurde als Reaktion auf das „Sättigungsproblem“ älterer Benchmarks konzipiert. Er enthält etwa 2.500 Fragen aus unterschiedlichen Wissensgebieten (z. B. Mathematik, Physik, Biologie, Sozialwissenschaften). Diese sind gezielt ausgewählt, sodass sie auch leistungsstarke Modelle herausfordern.
Die Fragen wurden von Expert*innen erstellt, überprüft und teilweise so ausgewählt, dass Modelle, die nur auf breite Daten trainiert wurden, darunter leiden — also „kniffligere“ Fragestellungen enthalten.

Was gemessen wird

Tieferes Verständnis & komplexere Fragestellungen als bei älteren Benchmarks
Grenzen des Modells bei schwererem Wissen oder Kombination verschiedener thematischer Bereiche

Stärken

Höherer Schwierigkeitsgrad, um Differenzierungen zwischen topmodernen Modellen zu ermöglichen
Fokus auf Fragen, die bislang „übersehen“ wurden

Schwächen & Limitationen

Noch relativ neu und weniger verbreitet – Vergleichswerte über viele Modelle hinweg sind begrenzt
Auswahl kann subjektiv sein, Risiko von Bias durch Expertenauswahl

MATH (Measuring Mathematical Problem Solving With the MATH Dataset)

MATH ist ein NeurIPS-2021-Benchmark mit 12.500 anspruchsvollen Wettbewerbsaufgaben (u. a. AMC/AIME). Jede Aufgabe enthält eine Schritt-für-Schritt-Lösung, sodass neben der Endantwort auch Begründungen evaluiert oder fürs Training genutzt werden können. Ziel ist die Messung mathematischer Schlussfolgerung jenseits reiner Schulmathematik.

Was gemessen wird

Korrekt gelöste Aufgaben (Accuracy) bei Wortproblemen und mehrstufigen Ableitungen.
Optional: Qualität der Herleitungen (je nach Auswertung).

Stärken

Breite, schwerer Aufgabenpool mit offiziellen Lösungen
etabliert und oft berichtet.

Schwächen / Hinweise

Hohe Contamination-Sensibilität durch lange öffentliche Historie von Wettbewerbsaufgaben
reine Skalierung (mehr Parameter) reicht laut Originalarbeit nicht automatisch zur Lösung.

GPQA Diamond

GPQA ist ein „Graduate-Level, Google-Proof“ Q&A-Benchmark (Biologie, Physik, Chemie). Diamond ist die härteste, kuratierte 198-Fragen-Subset, erstellt und validiert von PhD-Expert:innen, um moderne Modelle gezielt zu fordern.

Was gemessen wird

Multiple-Choice-Genauigkeit bei hochgradig fachlichen Fragen; Zufallsbaseline 25 %.

Stärken

Schweres, qualitätsgesichertes Set
nützlich, um Top-Modelle zu differenzieren
öffentliche Leaderboards verfügbar.

Schwächen / Hinweise

Vergleichswerte sind v. a. für neuere Modelle noch im Aufbau; enge Domänenabdeckung (STEM).

SWE-Bench (inkl. SWE-Bench Verified / Live / Multimodal)

SWE-Bench evaluiert LLMs an realen GitHub-Issues: Das Modell bekommt Codebasis + Issue und soll einen Patch erzeugen, der die Tests besteht. Varianten: Verified (menschlich validierte, robustere Teilmenge), Lite (kostenärmer), Multimodal (Issues mit visuellen Elementen) sowie SWE-Bench Live (monatlich aktualisiert, für kontaminationsarme, zeitnahe Aufgaben).

Was gemessen wird

Issue-Resolution-Rate (gelöste Instanzen / bestandene Tests), teils ergänzt um Laufzeit/Latenz.

Stärken

Realitätsnah (End-to-End-Software-Engineering)
geprüfte Subsets (Verified) verbessern Aussagekraft
Live adressiert Aktualität/Contamination.

Schwächen / Hinweise

Ergebnisse sind stark Umgebungs- und Tooling-abhängig (Runner, Abhängigkeiten, Testumgebung)
Reproduzierbarkeit erfordert penible Setup-Doku.

GDPval (OpenAI)

GDPval misst LLM-Performance auf ökonomisch wertschöpfenden, realweltlichen Aufgaben über 44 Berufe hinweg (z. B. Reportentwürfe, Analysen, Support-Aufgaben). Fokus: produktiver Output statt akademischer Tests. GDPval haben wir kürzlich auch einzeln vorgestellt.

Was gemessen wird

Qualität & Erfolgsrate bei berufstypischen Deliverables
teils menschliche Bewertung, teils strukturierte Kriterien
Ziel ist Nutzwert und Fehlermodi im Arbeitskontext sichtbar zu machen.

Stärken

Praxisnähe für Unternehmensentscheidungen (Kosten-/Nutzen-Abschätzung, Fehlerraten, Iterationsbedarf)
komplementär zu akademischen Benchmarks.

Schwächen / Hinweise

Jünger als klassische Benchmarks
Bewertungsrubriken und Inter-Rater-Reliability werden wichtig für Vergleichbarkeit
Ergebnisse können domänenspezifisch sein.

KI-Benchmarks entwickeln sich weiter

Der Vergleich von KI-Modellen bleibt eine komplexe Aufgabe. Während Benchmarks wie MMLU, MATH, SWE-Bench oder neuere Ansätze wie GDPval essenzielle Einsichten liefern, deckt kein einzelner Test alle Dimensionen eines Modells ab. Die Parameterzahl bleibt eine nützliche Referenzgröße, aber sie ist ohne Kontext – zugehörige Trainingsmethodik, Datenqualität, Inferenzumgebung, Tooling – nur unvollständig aussagekräftig.

KI-Benchmarks müssen sich daher weiterentwickeln und tun es auch bereits. Ältere Benchmarks erhalten +Updates, im Fall von SWE-Bench Live sogar monatlich mit neuen Aufgaben aktualisiert. Zugleich gibt es aber auch ganz neue Ansätze, wie das stark an der Arbeitswelt orientierte GDPval. Mit wachsender Komplexität ist es aber auch schwieriger, klar

Für einen fairen, praxisorientierten Vergleich empfiehlt es sich, mehrere Benchmark-Dimensionen zu nutzen: Wissens-/Reasoning-Tests, spezialisierte Domänenaufgaben, Effizienz, Robustheit und realweltliche Leistung.

Image via ChatGPT (KI-generiert)

Stefan Reismann

Das Internet ist sein Zuhause, die Gaming-Welt sein Wohnzimmer. Der Multifunktions-Nerd machte eine Ausbildung zum Programmierer, schreibt nun aber lieber Artikel als Code.

Artikel per E-Mail verschicken

Wie vergleicht man KI-Modelle? Die beliebtesten KI-Benchmarks

Was ist ein Benchmark überhaupt?

Die Rolle der Parameteranzahl

Die beliebtesten Benchmarks für KI-/Sprachmodelle

MMLU (Measuring Massive Multitask Language Understanding)

Humanity’s Last Exam (HLE)

MATH (Measuring Mathematical Problem Solving With the MATH Dataset)

GPQA Diamond

SWE-Bench (inkl. SWE-Bench Verified / Live / Multimodal)

GDPval (OpenAI)

KI-Benchmarks entwickeln sich weiter

Stefan Reismann

Related Articles

Wer ist Geoffrey Hinton? Nobelpreisträger und KI-Kritiker

Cybercrush – Wenn ChatGPT DAN zum Freund wird

Fünf Adobe Firefly-Tipps für Einsteiger