GDPval – Die neue KI-Evaluierung von OpenAI

Der KI-Markt ist hart umkämpft und gerade bei Chatbots ist die Auswahl von Anbietern riesig. Um die Modelle zu vergleichen, bezieht man sich oft auf die Anzahl Parameter eines Modells. Das zeigt aber ähnlich der Megapixel einer Kamera nicht die tatsächliche Qualität. Dafür gibt es auch für KI-Modelle Benchmarks. Mit GDPval schickt OpenAI nun selbst einen neuen Benchmark ins Rennen.

Viele Benchmarks beziehen sich dabei vor allem auf die Antwortqualität in Wissenskategorien. Auch das Abschneiden in Universitätstests sind beliebte Vergleiche für KI-Modelle. GDPval folgt einem praxisnäheren Ansatz. Der Benchmark deckt stattdessen nämlich Aufgaben mehrerer Berufe aus ihrem Alltag ab. Wir verraten euch, welche Berufe das sind und wie die Ergebnisse überhaupt bewertet werden.

Was ist GDPval?

GDPval ist ein von OpenAI entwickeltes Evaluierungsframework, das darauf abzielt, KI‑Modelle nicht nur anhand akademischer Tests, sondern in Bezug auf wirtschaftlich relevante, realitätsnahe Aufgaben zu bewerten. Der ausgeschriebene Name „Gross Domestic Product Evaluation“ – verweist auf den Anspruch, KI-Fähigkeiten im Kontext von Wirtschaftsleistung und Wertschöpfung zu verorten.

Ziel des Benchmark ist es, messbar machen, wie gut KI‑Modelle im Vergleich zu menschlichen Fachkräften echte Arbeitsprodukte erzeugen können – also z. B. juristische Gutachten, technische Zeichnungen oder Pflegepläne – anstatt nur Multiple-Choice‑Tests oder rein textbasierte Challenges zu absolvieren.

OpenAI sieht GDPval nach akademischen Benchmarks und spezialisierte Evaluierungen (wie SWE‑Bench) als nächsten Schritt zu einer umfassenden Bewertung realwirtschaftlicher Aufgaben. Der Benchmark deckt aktuell 44 Berufe aus 9 Industrien ab. Dabei handelt es sich um Berufe, die sowohl eine wirtschaftliche Bedeutung, als auch Potential für KI-Unterstützung im Tagesgeschäft besitzen.

Die 9 Industrien und 44 Branchen von GPDval

Immobilien & Vermietung

  • Concierge
  • Immobilien-, Hausverwaltungs- und Gemeinschaftsverwaltungsmanager
  • Immobilienmakler
  • Immobilienvermittler
  • Schalter‑ und Mietannahmekräfte

Regierung / Öffentlicher Sektor

  • Freizeitmitarbeiter (Recreation Workers)
  • Compliance-Beauftragte
  • Vorgesetzte der Polizei / Ermittler (First‑Line Supervisors of Police and Detectives)
  • Verwaltungsdienste‑Manager 
  • Sozialarbeiter für Kinder, Familien & Schulen

Fertigung / Produktion

  • Maschinenbauingenieure
  • Industrieingenieure
  • Einkäufer und Beschaffungsagenten
  • Versand-, Empfangs- und Inventurkräfte
  • Vorgesetzte der Produktions- und Betriebskräfte (First‑Line Supervisors der Produktion)

Professionelle, wissenschaftliche und technische Dienstleistungen

  • Softwareentwickler
  • Rechtsanwälte
  • Buchhalter und Wirtschaftsprüfer
  • IT- und Informationssystemmanager
  • Projektmanagement‑Spezialisten

Gesundheitswesen & soziale Dienste

  • Registrierte Pflegekräfte (Registered Nurses)
  • Nurse Practitioners (Advanced Practice Nurses)
  • Manager für Gesundheits- und Pflegedienste
  • Vorgesetzte der Büro- & Verwaltungskräfte
  • Medizinische Sekretäre / Assistenzkräfte

Finanzen & Versicherungen

  • Kundenservicemitarbeiter
  • Finanz- und Investmentanalysten
  • Finanzmanager
  • Persönliche Finanzberater
  • Vertrieb von Wertpapieren, Rohstoffen und Finanzdienstleistungen

Einzelhandel

  • Apotheker
  • Vorgesetzte der Einzelhandelsverkaufsmitarbeiter
  • General- und Betriebsleiter
  • Privatdetektive und Ermittler

Großhandel

  • Vertriebsleiter
  • Auftragsbearbeiter
  • Vorgesetzte der nicht‑Einzelhandelsvertriebsmitarbeiter
  • Vertriebsmitarbeiter im Großhandel (außer technische/ wissenschaftliche Produkte)
  • Vertriebsmitarbeiter im Großhandel (für technische und wissenschaftliche Produkte)

Information / Medien / Kommunikation

  • Audio‑ und Videotechniker
  • Produzenten und Regisseure
  • Nachricht­enanalysten, Reporter und Journalisten
  • Film- und Videoeditoren
  • Redakteure

Aufbau des Aufgaben‑Sets (Tasks)

Für jeden der 44 Berufe wurden Aufgaben (Tasks) erstellt, die reale Arbeitsprodukte widerspiegeln. Insgesamt besteht das GDPval‑Set aus 1.320 spezialisierten Aufgaben. Darunter gibt es ein sogenanntes Gold‑Subset, das offen zugänglich ist (220 Aufgaben), sodass Forschende und externe Evaluatoren auf einen Teil der Aufgaben zugreifen können.

Die Aufgaben sind nicht nur simple Textprompts, sondern kommen oft mit Kontextdateien, mehreren Dateiformaten (z. B. Dokumente, Tabellen, Präsentationen, Diagramme, Audio/Video, CAD) und strukturreichen Inputdaten.

Jede Aufgabe wurde durch ein mehrstufiges, iteratives Review‑Verfahren geführt. Ein Berufsexperte formulierte den Task. Weitere Experten prüften die Aufgabe zusätzlich hinsichtlich Repräsentativität, Machbarkeit und Klarheit. Erst danach formalisierte und standardisierte man das Task‑Material für die Evaluierbarkeit.

So bewertet GDPval ein KI-Modell

Die Hauptbewertung erfolgt bei GDPval tatsächlich durch menschliche Fachexperten (Grader), die blind vergleichen. Sie sehen nicht, ob ein Ergebnis von einem Menschen oder einem KI‑Modell stammt. Die KI-generierten Ergebnisse werden dabei paarweise menschlichen Referenzlösungen gegenübergestellt.

Expertinnen und Experten verwenden vordefinierte Bewertungsrubriken, die von den Task-Schöpfern mitentwickelt wurden, um Konsistenz und Transparenz zu gewährleisten. Die Bewertung erfolgt lediglich als „besser“, „gleichwertig“ oder „schlechter“.

Zusätzlich hat OpenAI einen „Automated Grader“ entwickelt, der versucht, vorherzusagen, wie menschliche Experten ein Ergebnis bewerten würden. Dieser dient als Hilfsmittel und als beschleunigender Mechanismus, ersetzt aber nicht die Fachexpertenbewertung. Die Übereinstimmung zwischen automatischem Grader und menschlichen Bewertungen liegt laut OpenAI innerhalb eines akzeptablen Bereichs (z. B. ~66 % Übereinstimmung), aber er ist noch nicht so zuverlässig, dass er vollständige menschliche Reviews ersetzen kann.

Der automatisierte Grader wird insbesondere auf dem Gold‑Subset eingesetzt und steht über evals.openai.com als experimenteller Service zur Verfügung.

Als weiterer Faktor bezieht GDPval auch Zeit und Kosten ein. Der Benchmark prüft für jede Aufgabe, wie viel Zeit (und damit Geld) ein Mensch benötigt, und berechnet, inwieweit Modelle mit Rechenzeit + API-Kosten diesen Aufwand reduziert. In die Berechnung fließt auch der Aufwand für Reviews durch Experten ein.

Erste Ergebnisse von GDPval

Die ersten Auswertungen von GDPval liefern spannende Einblicke, wie weit heutige KI‑Modelle in realwirtschaftlichen Arbeitsaufgaben bereits mit menschlicher Arbeit konkurrieren können — und wo ihre Grenzen noch liegen.

OpenAI berichtet, dass Modelle wie GPT‑5 und Claude Opus 4.1 bereits eine beachtliche Leistung zeigen: In einem beträchtlichen Teil der Aufgaben werden die KI-Generierungen von Expert*innen als „gleichwertig“ oder gar „besser“ bewertet.

Ein konkretes Beispiel: Für GPT‑5 (in der Variante „high“) gibt OpenAI an, dass in etwa 40,6 % der Fälle das KI-Ergebnis gegenüber der menschlichen Lösung entweder „gewonnen“ oder „gleichwertig“ eingestuft wurde. In einem Bericht heißt es sogar, Claude Opus 4.1 erreiche in manchen Versionen eine Win/Tie‑Rate von bis zu 49 % gegenüber menschlichen Referenzen.

Ein interessanter Aspekt ist die Leistungssprungentwicklung zwischen den Modellgenerationen: OpenAI weist darauf hin, dass die Performance von GPT‑4o zu GPT‑5 bei GDPval-Aufgaben deutlich zugenommen hat — in manchen Darstellungen wird von mehr als einer Verdoppelung oder gar Verdrei­fachung der Win/Tie‑Raten gesprochen.

Doch diese Ergebnisse sind nicht ohne Einschränkungen. Manche Kritiker*innen weisen darauf hin, dass GDPval keine iterativen Prozesse oder Rückkopplungen abbildet – wie es in echten Arbeitsumgebungen häufig der Fall ist – und dass Aufgaben oft ideal definiert sind, was den reinen Prompt + Kontext begünstigt. Außerdem können visuelle Gestaltung, Formatierung oder Präsentationsqualität Einfluss auf die Bewertung haben, was nicht zwangsläufig etwas mit inhaltlicher Tiefe zu tun hat.

OpenAI selbst schreibt, dass KI bereits repetitive und gut spezifizierte Aufgaben „schneller und kostengünstiger“ als Fachkräfte erledigen kann. Dennoch betont OpenAI, dass viele Berufstätigkeiten weit über solche isolierten Aufgaben hinausgehen. GDPval v0 bilde nicht etwa komplexe, iterative Workflowprozesse oder das Einholen von Feedback vollständig ab.

Ein guter Anfang

GDPval stellt in seiner ersten Version bereits einen wichtigen Schritt hin zu realitätsnäheren KI‑Benchmarks dar. OpenAI selbst sieht dies jedoch nicht als Endpunkt, sondern als Fundament für weitere Iterationen. Bereits jetzt finden sich Hinweise darauf, wie GDPval sich weiterentwickeln könnte und welche Herausforderungen dabei zu überwinden sind.

In der aktuellen Version werden Aufgaben in einem „One-shot“-Format präsentiert, also ohne Rückfragen, Nachbearbeitung oder Feedbackschleifen. In der Praxis sind viele Arbeitsprozesse jedoch dialogisch: Ein Rechtsgutachten wird nach Rückfragen überarbeitet, ein Analysebericht mehrfach überprüft, Designs in Abstimmung mit Stakeholdern angepasst. OpenAI selbst nennt diese Lücke als bekannte Limitierung und sieht zukünftige Versionen vor, die Interaktivität und Konversation mit Unsicherheit abbilden.

Auch Ausweitung auf weitere Berufe, Industrien und geografische Kontexte ist denkbar. OpenAI plant bereits, das Spektrum zu vergrößern und mehr Aufgaben- und Branchenabdeckung zu integrieren. Ob dabei auch Differenzierung nach Ländern stattfindet, ist allerdings nicht bekannt. Die 44 Berufe in 9 wurden auf Basis der US-Wirtschaft ausgewählt. In globalen Anwendungen oder in Ländern mit anderen Wirtschaftsstrukturen könnte der Benchmark anders aussehen.

Ein weiterer wichtiger Aspekt ist die Weiterentwicklung des automatisierten Graders. Aktuell dient dieser nur als Hilfsmittel, weil er nicht mit der Zuverlässigkeit menschlicher Expert*innen mithalten kann. In künftigen Versionen könnte der automatische Grader verbessert und stärker integriert werden, um Skalierbarkeit und Effizienz bei der Bewertung zu erhöhen.

GDPval ist ein solider Grundstein, der bereits zeigt, wo KI heute steht. Doch es ist auch ein Framework, dass erst noch weiterwachsen, verfeinert und mit realitätsnahen Bedingungen angereichert werden muss. Die größte Herausforderung ist dabei, die richtige Balance zwischen Abbildung komplexer Aufgaben und ihrer Formalisierung für eine gute Vergleichbarkeit zu finden. Spannend wird es, wenn künftig auch die Zusammenarbeit zwischen mehreren KI-Agenten oder die Zusammenarbeit zwischen Mensch und KI-Agenten abgebildet wird.


Image via ChatGPT (KI-generiert)

Das Internet ist sein Zuhause, die Gaming-Welt sein Wohnzimmer. Der Multifunktions-Nerd machte eine Ausbildung zum Programmierer, schreibt nun aber lieber Artikel als Code.


Artikel per E-Mail verschicken