
Künstliche Intelligenz benötigt qualitativ hochwertige Daten, um effektiv trainiert zu werden und präzise Vorhersagen treffen zu können. Obwohl es große Mengen an Daten gibt, ist oft nur ein Teil davon in einer leicht nutzbaren Form verfügbar. Daten sind etwa nicht einheitlich erfasst und liegen ohne Qualitätsbeschreibungen, sogenannten Datensteckbriefe, vor. Die Acatech-Initiative Mission KI will die Auffindbarkeit geeigneter Daten erleichtern und die Datenqualität steigern. Im Rahmen eines Projekts haben die Beteiligten die Datensatz-Suchmaschine Daseen (Dataset Search Engine) entwickelt, mit der sie eine quellenübergreifende Suche nach Datensätzen ermöglichen wollen. Die Suchmaschine ist nun als Beta-Version für die Öffentlichkeit unter www.daseen.de kostenfrei und ohne Registrierung nutzbar.
Mehr als 70.000 Datensätze
Die Suchmaschine basiert auf einer Open-Source-Software und kann den Beteiligten zufolge aktuell auf mehr als 70.000 kuratierte Datensätze von 29 Datenanbietern verschiedener Domänen (z.B. Verwaltung, Geodaten, Wetter) aus öffentlichen und privaten Datenportalen und -räumen zurückgreifen. Der Datenbestand soll in den kommenden Monaten kontinuierlich erweitert werden. Der KI-Dienstleister Beebucket hat das Projekt für Mission KI umgesetzt und wurde dabei von den Firmen Exxcellent Solutions, DeltaDAO und Nexyo unterstützt.
Für die Qualitätsbeschreibung der Daten haben die Partner den ‚Extended Dataset Profile Service‘ (EDPS) entwickelt, eine einheitliche Methode, um Daten zu indizieren und zu katalogisieren. Mit dem EDPS können Metadaten, sogenannte Datensteckbriefe, für Datensätze automatisiert erstellt werden. Datenanbieter erhalten mit dem Service die Möglichkeit, Daten aus unterschiedlichen Quellen automatisch zu katalogisieren, zu kuratieren und anhand von Datensteckbriefen auffindbar und nutzbar zu machen. Sind die Daten auf diese Weise beschrieben, können Datennutzer diese manuell oder maschinell über Datenräume und Datenportale hinweg anhand der Datensteckbriefe finden. Das Team hat den EDPS in Daseen integriert. Diese Kombination gibt Datennutzern den Beteiligten zufolge die Möglichkeit, sich qualitativ hochwertige Daten passgenau zu beschaffen.
Service in Datenräume eingebunden
Der EDPS wurde so konzipiert, dass er lokal beim Datenanbieter betrieben werden kann. Hierfür setzen die Beteiligten auf gängige Connectoren wie der Eclipse Data Space Connector. Damit folgt der EDPS dem Compute-to-Data-Prinzip: Die zur Erstellung der Datensteckbriefe verwendeten Algorithmen werden dort ausgeführt, wo die Daten physisch liegen – also beim Nutzer. Auf diese Weise wollen die Beteiligten sicherstellen, dass die Daten nicht bewegt werden müssen, um die gewünschten Metadaten zu generieren.
Das Team hat den Service in Datenräume wie den Mobility Data Space und Pontus-X eingebunden. Weiterhin wurde darauf geachtet, dass die entwickelte Software mit bestehenden technischen Lösungen und Standards harmoniert, sodass diese sicher, offen zugänglich und langfristig betreibbar ist.
Von den Software Daseen und EDPS, die separate, aber interoperable Komponenten sind, werden nach Ansicht der Beteiligten datenanbietende und datennutzende Unternehmen gleichermaßen profitieren ebenso wie Betreiber von Datenräumen und Datenportalen. Das Team stellt die Softwareals Open-Source auf hier auf Github zur Verfügung, um eine breite Nachnutzung zu ermöglichen.






































