KI-Modelle für Compliance-Aufgaben verglichen

Die EQS Group GmbH hat gemeinsam mit dem Berufsverband der Compliance Manager e.V. (BCM) die Leistungsfähigkeit von künstlicher Intelligenz im Bereich Compliance untersucht. Der veröffentlichte EQS AI Benchmark testete sechs große Sprachmodelle in 120 praxisnahen Anwendungen, darunter Risikoanalysen, Bewertungen von Interessenkonflikten und Third-Party-Screenings. Ziel war es, zu prüfen, inwieweit KI-Systeme den Anforderungen des Arbeitsalltags von Compliance-Fachleuten entsprechen. Bei strukturierten Aufgaben erzielten die getesteten Modelle laut EQS Group besonders hohe Genauigkeiten, während die Ergebnisse bei offenen oder mehrdeutigen Aufgaben deutlich uneinheitlicher waren.

%C2%A9nateejindakum AdobeStock 1535598481
Bild: ©nateejindakum/stock.adobe.com

Leistungsunterschiede und Fortschritte

Nach den Ergebnissen erreichen KI-Modelle bei eindeutig definierten Entscheidungsaufgaben durchschnittlich eine Genauigkeit von 90,8 Prozent und beim Datenabgleich von 91,8 Prozent. Vier der sechs Systeme lagen dabei über 95 Prozent. Bei komplexeren Analysen ergaben sich größere Unterschiede: Zwischen dem besten und dem schwächsten Modell betrug die Differenz 60 Prozentpunkte. Das Modell Gemini 2.5 Pro von Google erzielte den besten Wert mit 88 Prozent, während GPT-5 von OpenAI auf 62 Prozent und GPT-4o auf 28 Prozent kam. Im Gesamtranking belegte Gemini 2.5 Pro mit 86,7 Prozent knapp den ersten Platz vor GPT-5 mit 86,5 Prozent. GPT-5 zeigte laut EQS besondere Stärken bei kreativen Textaufgaben, während Gemini bei analytischen Aufgaben vorne lag. OpenAI o3 erreichte 83,3 Prozent, Claude Opus 4.1 von Anthropic 81,5 Prozent, GPT-4o 72,9 Prozent und Mistral Large 2 70,1 Prozent. Die Ergebnisse zeigen laut EQS Group den technischen Fortschritt zwischen 2024 und 2025.

Anwendungsmöglichkeiten und Grenzen

Die Analyse macht deutlich, dass die aktuellen KI-Modelle bei strukturierten Aufgaben verlässlich arbeiten, bei offenen Aufgaben oder Bewertungen jedoch Grenzen haben. Offene Aufgaben, etwa Management-Briefings oder Berichte zu internen Untersuchungen, wurden zusätzlich durch Fachjurys geprüft. GPT-5 erreichte in dieser Kategorie 67,4 Prozent. Die Ergebnisse unterstützen nach Angaben von EQS eine realistische Einschätzung des aktuellen Reifegrads von KI in Compliance-Prozessen.

Konsistenz und Fehlerraten

Der Bericht prüfte auch, wie verlässlich die geprüften Modelle in sich sind. Bei mehrfach wiederholten Multiple-Choice-Aufgaben gaben die Systeme in über 95 Prozent der Fälle dieselbe Antwort. Halluzinationen, also sachlich falsche Angaben, traten in drei Fällen auf und entsprechen einer Rate von 0,71 Prozent. Die EQS Group bewertet das als Zeichen dafür, dass KI-Modelle bei klar definierten Aufgaben stabile und überprüfbare Ergebnisse liefern können. Da Fehler nicht ausgeschlossen sind, bleibt eine menschliche Kontrolle insbesondere bei sensiblen Inhalten oder regulatorischen Sachverhalten notwendig.

Prompt-Design und Modellwahl

In der Studie wurde außerdem untersucht, wie stark die Qualität der Ergebnisse von der Formulierung der Aufgabenstellung abhängt. Je präziser die Fragestellung – etwa bei Screening-Daten oder der Gewichtung von Vorwürfen – formuliert wurde, desto besser fielen die Resultate aus. Insbesondere GPT-5 und Gemini 2.5 Pro setzten laut EQS komplexe Anweisungen zuverlässig um, was als Vorteil für Compliance-Teams gilt, die mit umfangreichen Daten und differenzierten Regelwerken arbeiten.

Methodik und Aufbau der Untersuchung

Für den EQS AI Benchmark Report wurden die Modelle OpenAI GPT-5, GPT-4o und o3 sowie Google Gemini 2.5 Pro, Anthropic Claude Opus 4.1 und Mistral Large 2 geprüft. Testgrundlage waren 120 Aufgaben aus zehn Kernbereichen der Compliance, darunter Risikoanalysen, Whistleblowing-Auswertungen, Trainings-Evaluationen und regulatorische Analysen. Die Aufgaben wurden unter Mitwirkung von Compliance-Praktikerinnen und -Praktikern entwickelt und teilweise auf realen oder synthetischen Daten aufgebaut, etwa aus Personal- oder Trainingsinformationen und Policy-Texten. Offene Aufgaben wurden in Zusammenarbeit mit dem BCM durch Fachjurys bewertet.

Bedeutung für Praxis und Umsetzung

Nach Angaben der EQS Group liefert der Benchmark einen Einblick in den Stand der KI-Entwicklung im Compliance-Umfeld und soll Organisationen helfen, den Nutzen und die Grenzen von KI realistisch einzuordnen. Die Studie zeigt sowohl den technologischen Fortschritt als auch die bestehenden Einschränkungen bei komplexen Aufgaben. Sie verdeutlicht, dass KI menschliche Entscheidungen und Verantwortung im Compliance-Management nicht ersetzt, sondern ergänzen kann.