3 Minuten Lesezeit (685 Worte)

GraphQL API zur kontinuierlichen Qualitätsanalyse von Datenverarbeitungsprozessen

Mittwoch, 14. April 2021

Dieser Artikel stellt die GraphQL API zur kontinuierlichen Qualitätsanalyse von ETL-Jobs von IBM DataStage vor. Die API ist mit dem Framework Spring Boot umgesetzt.

WAS IST GRAPHQL?

GraphQL ist eine Abfragesprache für eine API mit einer serverseitigen Laufzeitumgebung zur Ausführung von Abfragen. Es wird das Prinzip verfolgt, dass der Client das Format der Daten und damit den Umfang dynamisch zur Laufzeit bestimmt, und nicht jeweils spezifische Endpunkte entwickelt werden müssen.[1]

In diesem Anwendungsfall kann der Client zum Beispiel entscheiden, welche Infos er zu einem ETL-Job benötigt. Reicht der Name der Verarbeitung, oder ist relevant, wann die letzte Änderung gemacht wurde und vom wem? Mit GraphQL kann derselbe Endpunkt für beide Anwendungsfälle maßgeschneiderte Antworten liefern, ohne Over- oder Underfetching.

VORGEHEN ZUR JOB VALIDIERUNG

Für die Validierung muss zunächst ein Export zur Verfügung stehen, also ein konstantes Abbild der Datenverarbeitungsprozesse, die validiert werden sollen. Dieses wird im ersten Schritt an die API gesendet. Als Response erhält der Client eine UUID zur Identifikation des Validierungsauftrags. Der Server beginnt nun, den ETL-Prozess zu valideren.

Im zweiten Schritt kann der Client den Status bzw. das Ergebnis der Qualitätsanalyse abfragen. Er erhält in jedem Fall die Information, wie viele Jobs im Export enthalten waren, und wie viele von diesen bereits annalysiert sind. Falls die Validierung noch nicht abgeschlossen ist, kann der Client bereits die Ergebnisse von bereits validierten Jobs abrufen. Andernfalls stehen ihm bereits alle Resultate zur Verfügung.

Zweiteilige Grafik zur Job-Validierung: 1. Exportdatei wird per API gesendet, Server antwortet mit Auftrags-ID. 2. Client fragt Status und Ergebnisse der Analyse ab.

DAS VALIDEREN EINES DATASTAGE EXPORTS

Betrachten wir die Schnittstelle zum Hochladen eines IBM DataStage Exports: In der folgenden Abbildung ist dargestellt, wie die GraphQL API aufgerufen werden muss, um ein ISX File hochzuladen. Beim Response der API ist die UUID von besonderem Interesse, mit der die Ergebnisse im nachgelagerten Schritt abgefragt werden können.

Grafik zur Validierung eines IBM DataStage Exports über eine GraphQL API. Zeigt den Upload eines ISX-Files, die Rückgabe einer UUID und die serverseitige Verarbeitung in fünf Schritten, darunter Entpacken, Analyse und Validierung.

Im Folgenden wird dargestellt, wie die eigentliche Verarbeitung innerhalb des Servers aufgebaut ist.

Hierbei werden folgende Schritte durchlaufen:

ZIP File entpacken
Bei dem ISX File handelt es sich um ein ZIP Archive, welches die eigentlichen Daten beinhaltet. Diese werden im ersten Schritt extrahiert.
Enthaltene Objekte lesen und analysieren
Um die Prüfungen auf die Struktur anwenden zu können, werden zunächst die Daten aufbereitet, sodass die Prüfungen nacheinander auf diese angewendet werden können. Das ermöglicht die Durchführung der Analyse auf einer Abstraktionsebene.
1. XML-Datei einlesen
2. XML-Elemente auf Java Datentransferobjekt (DTO) übertragen
3. Alle Prüfungen auf Datentransferobjekt durchführen

Die Konvertierung von XML-Elementen in die korrespondierenden DTOs in Java werden durch ein Mapping von JPA zu XML durchgeführt. Die eigentlichen Prüfungen müssen in einer dafür vorgesehenen Datenstruktur definiert werden. Diese werden in eine Datenbank gemappt, damit die Prüfungen dynamisch spezifiziert und hinzugefügt werden können. Beim Validieren werden hierarchisch die zu validierenden Objekte durchgegangen. Entsprechend werden existierende Prüfungen abhängig von der Objektart und Objekttiefe angewendet.[2]

Es gibt mehrere Arten von Prüfungen, wobei verschiedene Fehlerlevel zurückgegeben werden können. Diese können über die API nach Bedarf hinzugefügt werden.

DIE ERGEBNISSE DER POLICE-ÜBERPRÜFUNG

Das Ergebnis der Police-Überprüfung kann über eine angebotene Schnittstelle abgerufen und grafisch dargestellt werden. Hierbei ist eine Anpassung auf die jeweiligen Anforderungen sinnvoll: Welche Ziele verfolge ich mit diesem Ansatz? Welche Kultur herrscht im Unternehmen oder im Projekt? Wie sind bisherige Abläufe und wo können die zusätzlichen Informationen den meisten Wert liefern? Die Abbildung zeigt, welche Informationen in einer Übersicht dargestellt werden können. In dieser sehen wir zunächst eine Übersicht mit der Anzahl der Fehler, unterteilt nach der Schwere der Fehler. Folgend sind pro Stage/Transformation die spezifischen Fehler dargestellt. Zusätzlich ist noch aufgeführt, wer wann an der jeweiligen Stage die letzte Änderung vorgenommen hat

Grafik zur Darstellung der Ergebnisse einer Police-Überprüfung: Übersicht über Fehleranzahl nach Schweregrad sowie Details zu einzelnen Stages, inklusive Fehlerbeschreibung, Bearbeiter und Änderungsdatum.

HINZUFÜGEN VON POLICES

Die Validierungsprüfungen und Policies sind abhängig von Vorgaben des jeweiligen Projektes und internen Guidelines. Daher können Policies zur Laufzeit über die API hinzugefügt werden. Diese werden in einer Datenbank hinterlegt und auf die ETL-Prozesse angewendet

In der folgenden Abbildung wird gezeigt, wie die oben dargestellte Police-Überprüfung hinzugefügt werden kann. In diesem Beispiel handelt es sich um einen Parameter, der überprüft werden soll.

Grafik zum Hinzufügen von Policies per GraphQL API. Zeigt ein Beispiel zur Laufzeitvalidierung eines Parameters in einem ETL-Prozess, inklusive Mutation und zugehöriger Variablen.

{loadmoduleid 179}

Quellen

[1] The GraphQL Foundation (2020): https://graphql.org/; besucht am 05.08.2020

[2] Cossijns M. (2020): Konzeption und Implementierung einer API zur Qualitätsanalyse und Überprüfung von unternehmensinternen Policies von ETL-Jobs; S. 56

ORDIX AG - Sales

Alle Beiträge anzeigen

ORDIX AG - Sales hat noch keine Informationen über sich angegeben

Markiert in:

Data Management

Kommentare

Derzeit gibt es keine Kommentare. Schreibe den ersten Kommentar!

BLEIBEN SIE INFORMIERT
mit den ORDIX Newslettern!

BLEIBEN SIE INFORMIERT
mit den ORDIX Newslettern!

GraphQL API zur kontinuierlichen Qualitätsanalyse von Datenverarbeitungsprozessen

WAS IST GRAPHQL?

VORGEHEN ZUR JOB VALIDIERUNG

DAS VALIDEREN EINES DATASTAGE EXPORTS

DIE ERGEBNISSE DER POLICE-ÜBERPRÜFUNG

HINZUFÜGEN VON POLICES

Quellen

Kommentare

BLEIBEN SIE INFORMIERT mit den ORDIX Newslettern!

BLEIBEN SIE INFORMIERT mit den ORDIX Newslettern!

GraphQL API zur kontinuierlichen Qualitätsanalyse von Datenverarbeitungsprozessen

WAS IST GRAPHQL?

VORGEHEN ZUR JOB VALIDIERUNG

DAS VALIDEREN EINES DATASTAGE EXPORTS

DIE ERGEBNISSE DER POLICE-ÜBERPRÜFUNG

HINZUFÜGEN VON POLICES

Quellen

Ähnliche Beiträge

Ein Wal im Container: Wie der Microsoft SQL Server seinen Weg in meinen Kubernetes-Cluster fand

Apache NiFi 2.0 ist da: Das Grundlagenseminar auf dem neusten Stand

ORDIX AG erweitert Partnerschaft mit Stackable – jetzt auch als Reseller

Nie mehr Datenchaos: So hilft State Management beim Aufbau zuverlässiger NiFi Flows

Divide and Conquer: Sharding mit Citus für PostgreSQL

Maximale Kontrolle über NiFi-Logs: So ändert ihr das Log-Level in Echtzeit!

Kommentare

BLEIBEN SIE INFORMIERT
mit den ORDIX Newslettern!

BLEIBEN SIE INFORMIERT
mit den ORDIX Newslettern!