Fundament für KI-Applikationen

Wie sammelt man Rohdaten im Data Lake?

Jira Extractor: Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben. Das erlaubt eine Referenz auf die gültige Schema Version in der Registry. (Bild: AIM - Agile IT Management GmbH)
Jira Extractor: Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben. Das erlaubt eine Referenz auf die gültige Schema Version in der Registry. (Bild: AIM – Agile IT Management GmbH)

Jira Extraktion

Im konkreten Beispiel des Jira Servicedesk geschieht das durch ein Plugin, das neu angelegte und geänderte Service Requests erkennt und zur Ablage an den Data Lake sendet. Gleichzeitig überprüft der Service, der die Daten ablegt, ob sich die Struktur der Datensätze geändert hat. Dies kann bedeuten, dass ein neues Feld hinzugefügt wurde. Diese Änderungen werden in einer Avro Schema Registry gespeichert, sodass die Veränderung der Struktur von Data Scientists ebenso zur Lösungsentwicklung in Betracht gezogen werden kann. Änderungen oder Neuanlagen von Service Requests werden vom Jira Extractor erkannt und im JSON-Format in einen Topic geschrieben. Dort wird die Schemaänderung vom Exporter abgeholt und ebenfalls in den Data Lake geschrieben. Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben, was ebenfalls eine Referenz auf die gültige Schema Version in der Registry erlaubt.

Der KIS Extractor wird zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. (Bild: AIM - Agile IT Management GmbH)
Der KIS Extractor wird zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. (Bild: AIM – Agile IT Management GmbH)

KIS Extraktor

Die Kundendaten liegen in diesem Fall in einer kundenseitigen Applikation auf FileMaker-Basis. FileMaker bietet eine REST-Schnittstelle, um die Daten zu extrahieren, zurückgegeben werden sie im JSON-Format. FileMaker bietet außerdem eine Schnittstelle zum Extrahieren der verwendeten Datenformate aller Felder, was die Extraktion des Schemas erleichtert. Die Daten werden jede Nacht abgerufen und als Batch verarbeitet. Dabei wird der KIS Extraktor zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. Diese werden nun in die einzelnen Objekte aufgeteilt und in einen Topic geschrieben. Hierdurch wird ebenfalls der Schema Extractor aufgefordert, das aktuelle Schema für den jeweiligen Datensatz zu prüfen. Der Schema Extractor nutzt eine Avro Schema Registry, um das Schema abzugleichen und gegebenenfalls fortzuschreiben. Alle einzelnen Objekte aus dem ursprünglichen Batch werden jetzt zu einem richtigen Objekt zusammengesetzt, welches im Avro-Format serialisiert wird. Das eigentliche Objekt wird dann im Parquet-Format in den Data Lake geschrieben.

Grundlage für KI-Applikationen

MediFox hat nun die Möglichkeit, historische Rohdaten aus ihrem Data Lake zu nutzen, um eine Transformation in ein strukturiertes Format zu definieren und somit eine Grundlage für industrielle KI-Anwendungen geschaffen. Da keine Daten verloren gehen, können jederzeit auch Anwendungsfälle umgesetzt werden, an die beim Design des Data Lake noch niemand dachte. Neue Datenquellen lassen sich durch ein flexibles Design in Form einer servicebasierten Architektur hinzufügen. Ganz praktisch hat die Firma eine Anwendung geschaffen, die die Abwanderungswahrscheinlichkeit ermittelt, sobald genug Daten für eine Vorhersage vorliegen.