Von Christoph Lukasseck auf Montag, 01. Juli 2024
Kategorie: Big Data & AI

Selbstbedienung im Data Lake – Datenvisualisierung mit Cloudera Data Visualization

Berichterstattung und Präsentation, die Entdeckung von Mustern und Trends oder die Optimierung des Unternehmenserfolgs sind nur ein paar Vorteile. Die Datenvisualisierung ist ein kraftvolles Werkzeug, das es ermöglicht, komplexe Daten in visuell ansprechende Grafiken, Diagramme und andere Darstellungsformen zu verwandeln. Es ermöglicht Dateningenieur:innen, Business Analysts und Datenwissenschaftler:innen, Daten schnell und einfach zu untersuchen, zusammenzuarbeiten und Erkenntnisse über den gesamten Datenlebenszyklus hinweg auszutauschen. Dieser Blogartikel zeigt die Erstellung eines Dashboards bzw. Reports am Beispiel der Cloudera Data Visualization (CDV) in der Version 7.1. CDV ist ein Bestandteil der Cloudera Data Platform, welche eine tiefe Integration mit zum Beispiel den Data Services in Cloud-Installationen (Private oder Public) oder dem Data Warehouse Layer hat. 

Wie bekomme ich Zugriff auf die Daten im Data Lake?

Als erster Schritt muss in CDV ein Datenmodell erstellt werden, welches auf die Quelldaten referenziert. In diesem Beispiel wird das Modell aus mehreren Apache Hive-Tabellen erstellt. Als Voraussetzung dafür muss in CDV eine Verbindung zu der Hive-Instanz im Data Lake angelegt werden. Dieser Schritt wird hier nicht näher beschrieben. Eine Möglichkeit für das Erstellen eines Datenmodells ist der Data-Tab in der Navigationsleiste. In dieser Unterseite kann über den Button „New Dataset“ aus den zur Verfügung stehenden Tabellen ausgewählt werden. Alternativ kann ein SQL-Statement angegeben werden, was im nächsten Schritt gezeigt wird. 

Die in diesem Beispiel genutzten verschiedenen Tabellen beinhalten Informationen über Verkäufe eines Onlinehandels und werden zur besseren Darstellung über JOINs verknüpft. Nach dem erfolgreichen Ausführen der Abfrage ist ein Preview der Daten darunter sichtbar und das Datenmodell kann erstellt und gespeichert werden. Alternative Wege für das Erstellen eines Datenmodells sind einmal der „Add Data“-Button im Data-Tab zum Hochladen einer CSV-Datei oder der SQL-Tab als Äquivalent des oben gewählten Weges. 

Zeit für die ersten Einblicke in die Daten

Mit dem Datenmodell kann nun ein Dashboard über den Visuals-Tab erstellt werden. Dazu werden die Datenverbindung und das Modell ausgewählt. Als Standard Visual wird eine Tabelle hinzugefügt. Im Dashboard Designer unter dem Build-Tab können jetzt die gewünschten Spalten in das Feld „Dimension“ der Tabelle bzw. des Visuals hineingezogen werden. Wird auf eine ausgewählte Spalte geklickt, können verschiedene Funktionen angewendet, ein Alias vergeben oder auch Wertmanipulationen über Expressions durchgeführt werden. Die Datenspalten in den Feldern „Dimensions“, „Measures“ und „Filters“ lassen sich zum Beispiel durch Drag & Drop in gewünschter Reihenfolge sortieren. Jede Änderung an den Visuals erfordert abschließend im Build-Tab das Klicken auf „Refresh Visual. Erst dann werden die Änderungen übernommen und die Tabelle aktualisiert. Diese sieht anschließend wie folgt aus:

Aus dem Fernglas wird eine Lupe

Zur Erweiterung des Dashboards können zusätzliche Visuals in Form von Diagrammen hinzugefügt werden. Diese ermöglichen eine Teilbetrachtung der Daten in spezifischer Darstellung. Die Vorgehensweise ist ähnlich zur Tabelle; es werden die gewünschten Spalten in die Felder „Dimensions“ und „Measures“ bzw. „X Axis“, „Y Axis“ und „Colors“ gezogen und auf dieser Basis das Diagramm erstellt. Im nachfolgenden Bild wird ein Liniendiagramm erstellt, welches den Gesamtumsatz pro Monat und Geschäftsjahr aufzeigt. Dafür werden per Expression der Monat und das Jahr aus der Spalte „Bestellung Datum“ gebildet und die Summe der Bestellungen über die Funktion sum() in die beiden Achsen bzw. Colors eingesetzt. Zusätzlich wird die Spalte Monat aufsteigend sortiert, sodass ein Zeitstrang entsteht. 

Damit eine Filterung der Visuals nach bestimmten Werten möglich ist, können die jeweiligen Spalten in das Feld „Filters“ gezogen werden. Die Filter selbst werden im Dashboard Designer über den Filters-Tab global hinzugefügt. Dafür müssen diese mit den Filtern in den Visuals übereinstimmen. In der Standardeinstellung entspricht der Anwendungsbereich der Filter allen Visuals im Dashboard, die auch unterschiedliche Datenmodelle als Basis haben können. Soll jedoch ein Filter nur auf ein spezielles Visual angewendet werden, ist das Hinzufügen der Spalten in das Feld „Filters“ wichtig, ebenso wie der explizite Anwendungsbereich des Filters in dessen Einstellungen.

Nachfolgend sind drei Diagrammtypen mit unterschiedlichen Informationen dargestellt. Die Anordnung und Größe der Visuals kann über den „Layout“-Button oben links geändert werden. Für weitergehende Aufgaben ist es auch möglich, jedes Visual über die drei Punkte oben rechts herunterzuladen und zum Beispiel im Excel- oder Bildformat zu speichern. 

Die Lupe wird zum Mikroskop

​Eine neue Funktion ermöglicht es, einen AI-Assistant als neues Visual in ein Dashboard einzubinden. Damit können die zugrundeliegenden Daten in natürlicher Sprache untersucht und noch gezielter auf Zusammenhänge oder Anomalien geprüft werden. In Kombination mit Cloudera Machine Learning (CML) lassen sich zum Beispiel die Metriken des Trainingsprozesses von KI-Modellen visualisieren, um eine Übersicht über den Status des Trainings zu erhalten und schnell auf den Bedarf des Hyperparameter-Tunings reagieren zu können. Neben den Dashboards besteht die Möglichkeit, eine App zu erstellen. Diese stellt eine Sammlung von verschiedenen Dashboards dar, die oben in der Leiste ausgewählt und geöffnet werden können.

Fazit

​Mit CDV lassen sich in kurzer Zeit visuell ansprechende Diagramme und Tabellen erstellen, mit denen die vorliegenden Daten analysiert und erforscht werden können. Dafür muss eine Verbindung zu den Daten im Data Lake hergestellt sein und ein Datenmodell anhand von SQL-Statements erstellt werden. Auf Basis des Datenmodells können anschließend Dashboards angelegt und mit Diagrammen bzw. Visuals gefüllt werden. Zur Detailbetrachtung einzelner Datensätze, Zeitspannen oder Gruppierungen von Merkmalen lassen sich globale Filter hinzufügen.

Für weitergehende Informationen und Hilfestellungen stehen wir Ihnen gerne zur Verfügung.

Seminarempfehlung

Kommentare hinterlassen