Was Daten zu guten Daten macht

3. April 2025

Künstliche Intelligenz und insbesondere Machine Learning können genau das, was die zu Grunde liegenden Daten hergeben. Deren Qualität entscheidet also über den Erfolg einer KI-Anwendung. Doch welche Anforderungen müssen Daten dazu erfüllen – und was haben Katzen- und Hundebilder damit zu tun?

Bei den aktuellen Entwicklungen im Bereich der großen Sprachmodelle (Large Language Models, LLMs) scheint das Thema Datenqualität oft weniger im Fokus zu stehen. Das liegt daran, dass diese Sprachmodelle mit einem in finanzieller Hinsicht enormen Aufwand trainiert werden. Mithilfe des sogenannten self-supervised Pretrainings und großer (und damit kostspieliger) Rechenleistung können gigantische Textmengen für das Training verwendet werden. Das Verfahren ermöglicht es, aus den Daten automatisiert ein sogenanntes Label zu generieren – ohne menschliches Eingreifen. Beispielsweise wird ein einzelnes Wort aus einem Satz ausgeblendet und das Modell muss anschließend rekonstruieren, welches Wort die entstandene Lücke füllen könnte. Mit dieser Kombination aus großen Datenmengen, großer Rechenleistung und einem Trainingsansatz, der quasi eine Vollautomatisierung des Trainings ermöglicht, spielt Datenqualität tatsächlich nur noch eine untergeordnete Rolle. Denn grundsätzlich gilt, dass die Bedeutung der Datenqualität mit steigender Datenmenge abnimmt.

Mit dem Blick auf spezifischere Use Cases mit kleineren Datensätzen, die aufgrund wesentlich geringerer Trainingskosten gerade für kleine und mittlere Unternehmen hierzulande attraktiv sein können, gewinnt das Thema Datenqualität an Bedeutung. Da hier weniger Daten zur Verfügung stehen, um eine gute Performance zu erzielen, ist zu beachten, dass der Mangel an Daten von der Datenqualität ausgeglichen wird. Wenige Daten in einer schlechten Qualität sind eine wenig aussichtsreiche Kombination für Machine Learning.

Daten als Ausschnitt der Realität

Die Bedeutung der Datenqualität nimmt mit steigender Datenmenge ab, da zugleich die Wahrscheinlichkeit steigt, dass die Realität besser abgebildet wird. Datensätze sind jedoch immer nur ein Ausschnitt der Realität. Die Idee von Machine Learning ist, ein Modell mit einem Datensatz zu trainieren, der einer realen Wahrscheinlichkeitsverteilung möglichst nahe kommt. Leider ist diese Anforderung in den vielen Fällen nicht ganz haltbar, denn Machine-Learning-Anwendungsfälle sind oft zu komplex, als dass ein Datensatz die reale Verteilung wirklich abbilden kann.

Das Ziel eines Datensatzes, der für den KI Einsatz genutzt werden soll, muss also sein, mit der begrenzten Menge an Trainingsbeispielen möglichst nah an die reale Verteilung zu kommen. Bei enorm großen Trainingsdatensätzen ist das wahrscheinlicher, weil hier in der Regel sehr viele verschiedene Trainingsbeispiele enthalten sind. Bei kleineren Datensätzen hingegen besteht ein höheres Risiko, dass nicht genügend verschiedene Trainingsbeispiele enthalten sind oder bestimmte Trainingsbeispiele fehlen. Dann kann es sein, dass das Modell während des Trainings nicht das lernt, was es für den realen Einsatz benötigt, und die Performance unter den Erwartungen bleibt.

Drei Bausteine machen einen Datensatz zu einem guten bzw. sehr guten Datensatz. – Bild: Brandmauer AI Solutions

Was Datenqualität bedeutet

Im Grunde basieren die Anforderungen an die Qualität eines Datensatzes darauf, dass die reale Verteilung möglichst gut im Datensatz abgebildet wird. Dazu braucht es in erster Linie eine Übereinstimmung der Daten und des Use Cases. Vereinfacht formuliert bringt es nichts, etwa ein KI-Modell mit Katzenbildern darauf zu trainieren, Hunderassen zu erkennen. In der Übereinstimmung von Daten und Use Case liegt somit die Basis für die Datenqualität in den meisten Machine Learning Anwendungen.

Der Informationsgehalt der Daten ist ein weiterer wichtiger Baustein einer guten Datenqualität. Denn die müssen auch die Informationen enthalten, mit denen dann etwa eine Vorhersage oder Entscheidung mit entsprechender Konfidenz getroffen werden kann. Im Beispiel der Hunderassenerkennung würde es wahrscheinlich wenig bringen, wenn auf den Hundebildern nur ein Ausschnitt des Kopfes zu sehen wäre. Andere wichtige Informationen wie beispielsweise das Fell, Fellfarbe, Körperbau oder der Schwanz fehlen.

Zu einem guten Datensatz gehört darüber hinaus auch gewisse Balance. Wenn etwa 90 Prozent der Hundebilder die Rasse ‚Schäferhund‘ abbilden und nur die restlichen 10 Prozent andere Hunderassen, dann wird das Modell auch hier vermutlich in vielen Fällen schlecht performen. Es gilt, den Datensatz so ausgewogen wie möglich zu gestalten. Gleichzeitig müssen jedoch genügend Trainingsbeispiele der einzelnen Hunderassen enthalten sein. Ein fiktiver Trainingsdatensatz mit einem Bild pro Hunderasse ist zwar balanciert, wird aber dennoch nicht weit führen.

Zuletzt sollte man noch ein paar allgemeine Anforderungen an einen Datensatz stellen, um von guter Datenqualität sprechen zu können. Und zwar sollten die Daten konsistent z.B. in Bezug auf Format oder Sprache, möglichst aktuell und weitestgehend vollständig sein. Auch sogenannte Outlier oder Biases können zum Problem werden und sollten daher im Idealfall vermieden werden. Da sich dies jedoch nicht immer beeinflussen lässt, machen diese Faktoren eher den Unterschied zwischen sehr guten und guten Daten, stellen aber in der Regel keine großen Hindernisse dar. Lediglich der Aufwand während des sogenannten Preprocessings (Vorbereiten der Daten für das ML Modell) wird erhöht.

Fazit

Ohne gute Datenqualität wird es kaum gelingen, eigene Machine Learning Modelle effektiv und profitabel einzusetzen. Daher ist es umso wichtiger, dass die Datengrundlage stimmt. Auch wenn die Anforderungen an die Datenqualität auf den ersten Blick zahlreich und komplex scheinen, bietet eine gute Datengrundlage zumindest die Möglichkeiten, die Datenqualität zu verbessern. Es gibt Möglichkeiten, Outlier oder fehlende Werte im Datensatz zu behandeln. Zudem ist es möglich, dass Menschen zusätzliche Trainingsbeispiele erstellen oder vorhandene erweitern. Es gilt, eine solide Datengrundlage oder zumindest Datenquellen zu schaffen, um überhaupt Möglichkeiten für den KI Einsatz ergreifen zu können.

Autoren: Jan Bentz, Gründer und Geschäftsführer, Brandmauer AI Solutions

Thematik: Industrie 4.0 (I40)

Brandmauer AI Solutions

Zur Firmenwebsite

News

Bild: ©metamorworks/stock.adobe.com

Cybersicherheit

All for One Group beteiligt sich an BrightFlare

Die All for One Group, ein IT-, Consulting- und Service-Provider aus Filderstadt, beteiligt sich an dem österreichischen Cybersecurity-Spezialisten BrightFlare.

Weiterlesen: All for One Group beteiligt sich an BrightFlare
Bild: Heitec AG/ A+K

Intralogistik-Portfolio erweitert

Heitec übernimmt Artschwager + Kohl

Artschwager + Kohl Software ist seit Januar 2026 Teil der Heitec-Gruppe.

Weiterlesen: Heitec übernimmt Artschwager + Kohl
Bild: ©enzozo/stock.adobe.com

Google-Report zur Münchner Sicherheitskonferenz

Wenn KI-Modelle zum Angriffsziel werden

Zur Münchner Sicherheitskonferenz (13. bis 15. Februar) hat die Google Threat Intelligence Group (GTIG) einen Bericht veröffentlicht, mit dem die Verfasser die Debatte um KI-gestützte Bedrohungen auf eine operative Ebene ziehen.

Weiterlesen: Wenn KI-Modelle zum Angriffsziel werden
Bild: Hiscox Europe Underwriting Limited

Hiscox-Umfrage von Statista:

Mehr IT-Dienstleister erleben Vorwürfe wegen Schlechtleistung

Gegen zwei Drittel der IT-Dienstleister wurden im vergangenen Jahr seitens ihrer Auftraggeber Vorwürfe wegen angeblicher Schlechtleistung erhoben.

Weiterlesen: Mehr IT-Dienstleister erleben Vorwürfe wegen Schlechtleistung
Bild: ForeScout Technologies, Inc.

Dirk Decker übernimmt

Forescout ernennt Regional Director für Zentraleuropa

Forescout Technologies, ein Spezialist für Cybersicherheit, hat die Ernennung von Dirk Decker (Bild) zum Regional Director für Zentraleuropa bekanntgegeben.

Weiterlesen: Forescout ernennt Regional Director für Zentraleuropa
Bild: ©Kamran-Studio/stock.adobe.com

IBM X-Force Threat Index

KI hilft Angreifern, Schwachstellen schneller auszunutzen

In einem aktuellen Bericht weist IBM darauf hin, dass Cyberkriminelle grundlegende Sicherheitslücken in dramatisch höherem Maße ausnutzen.

Weiterlesen: KI hilft Angreifern, Schwachstellen schneller auszunutzen
Bild: Dragons, Inc.

Operative Störungen statt passive Erkundung

Wie Angreifer industrielle Steuerungssysteme ins Visier nehmen

Dragos, Cybersicherheitsspezialist für OT-Umgebungen, analysiert in einem Bericht aktuelle Cyberbedrohungen für industrielle und kritische Infrastrukturen.

Weiterlesen: Wie Angreifer industrielle Steuerungssysteme ins Visier nehmen
Bild: Neura Robotics

Gemeinsames Projekt der TU München und Neura Robotics

Ein Lernzentrum für Roboter entsteht

Das Munich Institute of Robotics and Machine Intelligence (MIRMI) der Technischen Universität München (TUM) und das Unternehmen Neura Robotics planen ein Forschungs- und Trainingszentrum für Robotik im wissenschaftlichen Bereich.

Weiterlesen: Ein Lernzentrum für Roboter entsteht
Bild: ©Nassorn/stock.adobe.com

Neues Gremium

Deutsche Gesellschaft für Robotik gegründet

Mit der Deutschen Gesellschaft für Robotik e.V. hat sich im März 2026 eine neue gemeinnützige Fachgesellschaft gegründet, die die Förderung von Wissenschaft, Forschung und Bildung im Bereich der Robotik zum Ziel hat.

Weiterlesen: Deutsche Gesellschaft für Robotik gegründet
Bild: ©greenbutterfly/stock.adobe.com

Was ist eigentlich was?

Ein kurzer Blick auf CRA, EU-Maschinenverordnung und NIS-2

Gezielte Cyberangriffe auf Anlagen und Maschinen sind längst Realität. Mit CRA, NIS2 und der neuen EU-Maschinenverordnung reagiert der Gesetzgeber nicht nur mit klaren Empfehlungen, sondern auch mit konkreten Meldepflichten, Vorgaben und Sanktionen. NTT Data fasst zusammen, was hinter den drei Vorgaben steckt und welche Auswirkungen sie haben.

Weiterlesen: Ein kurzer Blick auf CRA, EU-Maschinenverordnung und NIS-2

Reihe Wissen Kompakt

ERP

Ein Unternehmen, das sich mit der Auswahl eines ERP- Systems befasst, muss sich gleichsam mit einem viel- schichtigen Software-Markt und unklaren Interessen- lagen an interne Abwick- lungsprozesse auseinander- setzen. Guter Rat bei der Investitionsentscheidung ist teuer. ERP Wissen Kompakt unterstützt Sie bei der gezielten Investition in die IT-Infrastruktur.
KI Künstliche Intelligenz

Immer mehr Anbieter von Maschinen, Automatisierungstechnik und Industriesoftware integrieren künstliche Intelligenz in ihre Produkte. Das ganze Potenzial spielen selbstlernende Systeme aber erst aus, wenn sie passgenau auf ihren Einsatz in Fertigung und Büro zugeschnitten wurden. Über beide Möglichkeiten, als Fertiger die Vorzüge von industrieller KI zu nutzen, geht es im regelmäßig aktualisierten Themenheft Künstliche Intelligenz.
IIoT Industrial Internet of Things

Das Internet of Things verändert Produktwelten und die Vernetzung in der Fertigung gleichermaßen. Entstehende Ökosysteme laden zur einer neuen Form der Zusammenarbeit ein. Die Spezialausgabe IoT Wissen Kompakt informiert über die Technologie, Projektierung und Anbieter für die eigene Applikation, in- und außerhalb der Fabrik.
MES Manufacturing Execution Systems

Um alle Potenziale eines MES umfassend ausnutzen zu können, beleuchten unsere Autoren in der Serie von MES Wissen Kompakt die erfolgskritischen Faktoren, um Fertigungsunternehmen präventiv zu steuern. Darüber hinaus präsentiert MES Wissen Kompakt ein breites Spektrum an Firmenportraits, Produkt- neuheiten und Dienst- leistungen im MES-Umfeld.

Partner-Netzwerke

CtrlX-Partner

Hersteller von Automatisierungstechnik fügen eigene und von Partnern beigesteuerte IT- und Automatisierungskomponenten zunehmend zu Ökosystemen zusammen. CtrlX Automation von Bosch Rexroth ist mit über 100 Partnern eines der größten an Markt. Mit dem Portfolio lassen sich Automatisierungssysteme modular zusammenstellen und in die IT-Schicht integrieren.
Microsoft-Partner

Mittelständische Unternehmen investieren selbst in schwierigen Zeiten in Microsoft-Technologien, weil sie überzeugt sind, dass ihre Mitarbeiterproduktivität steigt und sich ihre Kostenstruktur bessert. Microsoft hat mit dem Microsoft-Partner-Network ein Netzwerk aufgebaut, das ein Forum für den Aufbau von Partnerschaften, Zugang zu Ressourcen und einen Rahmen für Dialoge und Kooperationen bietet.
SAP-Partner

Auf der Suche nach Innovation, nach neuen Lösungen und der Abgrenzung zum Mitbewerb vernetzen sich zunehmend mehr Unternehmen mit externen Experten und Partnern. SAP hat mit dem SAP-Ecosystem ein Netzwerk aufgebaut, das ein Forum für den Aufbau von Partnerschaften, Zugang zu Ressourcen und einen Rahmen für Dialoge und Kooperationen bietet.