Von ORDIX AG auf Mittwoch, 03. April 2019
Kategorie: Data Management

Rückblick: Data Works Summit 2019 in Barcelona

Vom 18. bis 21. März fand der Data Works Summit in Barcelona statt. Dort konnten sich die Teilnehmer zu Big Data, AI und Cloud Themen informieren. Schwerpunkte waren Technologien und Lösungen, bei denen Hadoop und weitere Komponenten aus dem Hadoop Ökosystem eine zentrale Rolle spielen.

Die Konferenz begann am Montag mit dem zweitägigen Training "HDP Data Science with Spark". Neben den Grundlagen zu populären Data-Science-Verfahren wurde deren Implementierung mit Spark vermittelt.

Am Mittwoch und Donnerstag fand die eigentliche Konferenz statt. Ich habe dort einen Vortrag mit dem Titel "Kudu as Storage Layer to Digitize Credit Processes" gehalten. Insgesamt gab es in sechs Tracks mehr als 70 Vorträge, Crash-Kurse und Meetups. Hier die Zusammenfassung einiger weniger Highlights:

Better than Deep Learning: Gradient Boosting Machines (GBM)

Neben der Vorstellung von Gradient Boosing Machines (GBM) hat Szilard Pafka in seinem Vortrag Gradient Boosting Machines mit Deep-Learning-Verfahren verglichen. Im Ergebnis kommt er zu folgendem Schluss: Für Deep Learning gibt es viele sehr gute Anwendungsfälle. Beispiele sind Textanalyse, Bilderkennung und Spracherkennung. Es gibt aber auch Anwendungsfälle, in denen andere Verfahren, wie zum Beispiel GBM, Random Forest oder Linear Regression, bessere Ergebnisse liefern. Insbesondere für "Machine learning on tabular data (boring $$ making business problems)" sind GBMs seiner Ansicht nach hervorragend geeignet. Weitere interessante Aussagen aus dem Vortrag:

Wie so oft hängt es in der Realität von vielen Faktoren ab, welcher Ansatz der Beste ist. Die genannten Beispiele liefern aber gute "Daumenregeln" für den Start.

Disaster Recovery Experience at CACIB: Hardening Hadoop for Critical Financial Applications

Mohamed Mehdi Ben Aissa und Abdelkrim Hadjidj haben in diesem Vortrag den Aufbau einer Disaster Recovery (DR) Lösung für Hadoop vorgestellt. Die Lösung stellt sicher, dass beim Ausfall eines Rechenzentrums keine Daten verloren gehen und der Hadoop Cluster weiter zur Verfügung steht. Zu diesem Zweck wird der Hadoop Cluster über 3 Rechenzentren verteilt aufgebaut und betrieben. In zwei der Rechenzentren befinden sich sowohl Master als auch Worker Nodes. Das dritte Rechenzentrum dient dazu, einen Split Brain zu verhindern. Hier werden die Master Nodes von Diensten betrieben, die drei Nodes benötigen. Das sind zum Beispiel der dritte ZooKeeper-Knoten und der dritte HDFS JournalNode. Als Replikationsfaktor wurde 4 gewählt. Durch eine geeignete HDFS-Konfiguration wird sichergestellt, dass in jedem Rechenzentrum 2 Kopien der HDFS Blöcke gespeichert werden und somit beim Ausfall eines Standorts immer noch 2 Kopien der Daten existieren. Damit die Lösung funktioniert, ist ein schnelles Netz mit hoher Bandbreite unerlässlich. In der vorgestellten Lösung wird ein Dark Fibre Netzwerk mit Leitungslängen zwischen den drei Standorten von ca. 20 km, einem Durchsatz von 100 Mbit/s und einer Latenz von weniger als 1 ms verwendet. Über die YARN-Konfiguration wird erreicht, dass Daten nicht unnötig zwischen den Rechenzentren repliziert werden und dass Jobs immer nur in einem Rechenzentrum ausgeführt werden.

Fazit

Die Konferenz hat eine sehr gute Mischung an Themen abgedeckt. Sowohl für Einsteiger, die einen Überblick über Big-Data-Technologien und deren Anwendungsfälle erhalten wollten, als auch für Experten, die an technischen Details interessiert waren, wurden entsprechende Vorträge und Workshops angeboten. Zusätzlich gab es viele Möglichkeiten, sich mit den mehr als 1000 Teilnehmern direkt auszutauschen. In Summe eine gelungene Veranstaltung, für die sich die Reise in jedem Fall gelohnt hat.

Kommentare hinterlassen