
KI-Modelle wie GPT, Llama oder Clipdienen dienen oft als Ausgangsbasis für spezialisierte KI-Modelle, die in der Wissenschaft, Industrie und nicht zuletzt in der medizinischen Diagnostik eingesetzt werden. Diese Foundation-Modelle werden mithilfe von sogenannten unüberwachten Lernmethoden (unsupervised Learning) trainiert, beispielsweise durch Selbstüberwachung. Ein Team von Wissenschaftlern des Berlin Institute for the Foundations of Learning and Data (BIFOLD) an der TU Berlin hat in diesem Zusammenhang ein Problem nachgewiesen: Stützt sich ein Foundation-Modell bei seinen vermeintlich korrekten Entscheidungen etwa auf Artefakte in den Daten, kommt es zum sogenannten Clever-Hans-Effekt. Dieser kann das Modell erheblich beeinträchtigen und überträgt sich auf alle Modelle, die auf dem kompromittierten Foundation-Modell aufbauen.
Der Clever-Hans-Effekt im maschinellen Lernen beschreibt, wenn ein KI-Modell zwar richtige Vorhersagen trifft, aber für diese Entscheidung irrelevante oder unerwartete Muster nutzt. Der Name stammt vom Pferd ‚Clever Hans‘ (Kluger Hans), das zwar nicht rechnen konnte, aber die entsprechenden Zeichen seines Besitzers deuten konnte und so bei der korrekten Antwort per Hufklopfen oder Kopfnicken Signal gab. Ein Beispiel für diesen Effekt wäre ein Bildklassifikationsmodell, das zum Beispiel Pferde erkennen soll, seine Entscheidung aber hauptsächlich auf der Existenz eines unbemerkten Schriftzuges (Pferdebilder) am Rand der Bilder trifft.
Richtige Entscheidung, falsche Grundlage
Die Forscher demonstrierten die Existenz der Clever-Hans-Effekte beispielsweise im Kontext medizinischer Daten: Das Foundation-Modell PubMedCLIP, das für medizinische Bildanalyse entwickelt wurde, erkannte zwar erfolgreich zwei ähnliche Lungenröntgenbilder als ähnlich, traf seine Entscheidung jedoch hauptsächlich aufgrund irreführender Text-Anmerkungen auf beiden Röntgenbildern und nicht aufgrund von ähnlichen Pixelverteilungen in den Lungenregionen.
Die fehlerhafte Strategie, sich auf Text-Anmerkungen statt auf Bildinformationen zu stützen, sei ein direktes ‚Erbe‘ des Ausgangs-Modell Clip, so die Forschenden. Clip ist ein Foundation-Modell für Bilddatenanalyse, das auf unüberwachtem Lernen beruht. Ähnlich wie andere Foundation-Modelle, die auf diesem Verfahren beruhen, dient es als Basis für diverse neue Anwendungen und wird so zu einer potenziellen Fehlerquelle: „Wir halten es für essenziell, das unüberwachte Lernparadigma, auf dem diese Modelle basieren, zu überdenken. Nur so können wir sicherstellen, dass die darauf aufbauenden spezialisierten Modelle zuverlässig sind und nicht mit Clever-Hans-Effekten kontaminiert werden“, betont Bifold-Wissenschaftler Prof. Dr. Grégoire Montavon.
Erklärbare KI deckt Clever-Hans-Effekte auf
Entdeckt haben die Wissenschaftler diesen ‚Domino-Effekt‘ mithilfe von Methoden der Erklärbaren KI auf der Basis von LRP (Layer-wise Relevance Propagation). „Besonders nützlich ist hierbei die Erklärbare-KI-Methode BiLRP, die nicht nur aufzeigt, welche Pixel das Modell betrachtet, sondern auch, wie diese Pixel miteinander interagieren, um zwei Bilder als ähnlich oder unähnlich erscheinen zu lassen“, erklärt Gregoire Montavon. So fanden sie beispielsweise heraus, dass das CLIP-Modell bestimmte Merkmale wie Text oder Gesichter übermäßig stark berücksichtigt. Zudem konnten sie in einigen Fällen ebenfalls zeigen, dass die Erklärbare KI auch genutzt werden kann, um diese Fehler aus dem Basis-Foundation-Modell zu entfernen.
Unüberwachtes Lernen existierte bereits bevor Foundation-Modelle aufkamen und wurde auf nahezu jede Art von Datensatz angewendet, für den keine Labels verfügbar sind. Klassische Probleme, bei denen unüberwachtes Lernen zum Einsatz kam, waren etwa das Clustern von Daten oder das Erkennen von Anomalien in einem Datensatz – ein oft genutztes Verfahren der Qualitätssicherung in der industriellen Fertigung. In der Publikation zeigen die BIFOLD-Forscher, dass auch diese Modelle mit Clever-Hans-Strategien arbeiten.
„Das unüberwachte Lernen ist ein zentrales Merkmal der großen Foundation-Modelle. Das wir in diesen Modellen verbreitet Clever-Hans-Effekte nachweisen konnten, ist ein Grund zur Besorgnis. Vor allem weil diese Foundation-Modelle die Basis vieler nachgelagerter spezialisierter KI-Modelle sind und die Clever-Hans-Effekte sich so immer weiterverbreiten. Unsere jüngsten Entwicklungen der Erklärbaren KI zeigen erstmals einen effektiven Weg, um diesen Domino-Effekt in Foundation-Modellen zu erkennen und zu beheben“, erläutert BIFOLD Co-Direktor Klaus-Robert Müller.
Die Forschungsarbeit wurde in der Fachzeitschrift Nature Machine Intelligence veröffentlicht: www.nature.com






































