4 Minuten Lesezeit (704 Worte)

Erfahrungsbericht: Big Data Engineer Traineeprogramm bei der ORDIX AG

Dienstag, 06. September 2022

Während meines Studiums der Betriebswirtschaftslehre, entdeckte ich mein Interesse an Datenwissenschaften und entschied mich in diesem Themengebiet professionell tätig zu werden. Obwohl ich die Möglichkeit hatte, mehrere relevante Kurse zu belegen, fehlten mir dennoch teils grundlegende Kenntnisse für den Einstieg als Big Data Engineer. Nach meinem abgeschlossenen Studium war es mir deshalb wichtig, ein Unternehmen in dieser Branche zu finden, das die Weiterbildung nicht nur ermöglicht, sondern auch fördert. Bei der ORDIX AG habe ich schnell festgestellt, dass die Weiterbildung ein fester Bestandteil der Unternehmenskultur und Strategie ist.

Als erster Absolvent des Big Data Engineer-Traineeprogramms, wurde ich innerhalb eines halben Jahres in die wichtigsten Technologien und Werkzeuge eines Big Data Engineers eingewiesen. Dabei zeichnet sich das Programm besonders durch die praxisorientierten und vielseitigen Seminare aus, die einen schnellen Einstieg in die Welt eines Big Data Engineers bieten. Im Mittelpunkt des Traineeprogramms stehen vor allem die Seminare, Hadoop Grundlagen (HADOOP-01), Konfigurationsmanagement mit Ansible (ANSIB-01) und der Linux/Unix Power Workshop für den Datenbank- und Applikationsbetrieb (BS-25), da diese Fähigkeiten und Kenntnisse bei der Entwicklung und dem IT-Betrieb einer Big Data-Plattform täglich verwendet werden.

Linux Kenntnisse sind essenziell, um sich in einem Big Data Cluster, mit meist über 100 Linux-Servern, zurechtzufinden und das Hadoop-Ökosystem erfolgreich zu betreiben. Dabei müssen Dateningenieure nicht nur das Linux-Betriebssystem verstehen, sondern auch imstande sein, die Plattform über die Linux Shell zu administrieren und Aufgaben wie Troubleshooting durchzuführen. Diese Kenntnisse werden im fünftägigen BS-25 Seminar vermittelt, sodass man nach der Absolvierung des Kurses, ein tieferes Verständnis für die Funktionsweisen eines Linux/Unix-Systems erhält und weiter darauf aufbauen kann. Die Voraussetzung für das Seminar sind grundlegende Linux Kenntnisse, welche im Seminar Linux/Unix Grundlagen für Einsteiger (BS-01) behandelt werden.

Im Hadoop Grundlagen Seminar (HADOOP-01) werden Big Data-Einsteiger innerhalb von drei Tagen durch einen großen Teil des Hadoop-Ökosystems geführt und bekommen so ein erstes grundlegendes Verständnis über die Architektur und die zahlreichen Komponenten und Technologien einer Big Data-Plattform. Dazu gehört ein Überblick über Cloudera und den Cloudera Manager (CM), eine Einführung in die Hadoop-Kernkomponenten HDFS, YARN und MapReduce, sowie weitere relevante Komponenten wie Apache Hive, Spark, HBase, und weitere. Jede Komponente wird dabei mit praktischen Anwendungsbeispielen erklärt und vorgeführt. Das Seminar bietet somit einen umfangreichen Einblick in den Aufbau einer Big Data-Plattform und grundlegende Kenntnisse für den Betrieb einer Hadoop-Umgebung. Obwohl mir diese Kenntnisse den Einstieg als Junior Data Engineer ermöglicht haben, musste ich schnell feststellen, dass tieferes Wissen in Hadoop und der einzelnen Komponenten nötig ist, um komplexere Probleme lösen zu können und die Plattform erfolgreich weiterzuentwickeln. Seminare wie Hadoop Administration (HADOOP-02) oder Apache Spark Grundlagen (SPARK-01) bauen auf dem Hadoop-Grundlagen-Seminar auf und vertiefen exakt dieses Wissen in den jeweiligen Themengebieten.

Ein weiteres Werkzeug, das in der täglichen Arbeit eines Big Data Engineers nicht fehlen darf, ist Ansible, eines der meist etablierten Open-Source Automatisierungs-Werkzeuge zur Orchestrierung, Konfiguration und Administration von Computer-/Server-Clustern. Mit Ansible kann ein Master-Server mit Hilfe von SSH-Verbindungen, einen oder mehrere Slave-Server konfigurieren. Für die Arbeit mit mehrheitlich über 100 Servern in einem Big Data-Cluster, ist Ansible daher unverzichtbar und ermöglicht beispielsweise Aufgaben, wie die Installation eines Pakets auf hunderten Servern mittels nur eines Masters. In dem dreitägigen Ansible-Seminar erlernt man anhand von praxisorientierten Übungsaufgaben die Möglichkeiten der Ansible-Installation, Einrichtung, sowie die Nutzung von Modulen, Variablen, Templates und Rollen. Nachdem dieses Seminar abgeschlossen wurde, ist man in der Lage, Linux-/Unix- oder Windows-Server automatisiert zu administrieren und konfigurieren.

Fazit

Obwohl es mehr Zeit, Erfahrung und tieferes Wissen benötigt, um Experte im Bereich Big Data Engineering zu werden, bietet das Traineeprogramm ein umfangreiches Grundverständnis und ermöglicht somit den Einstieg als Big Data-Engineer. Ich konnte daher innerhalb eines halben Jahres als Junior Consultant in einem Big Data-Projekt eines großen europäischen Finanzdienstleisters einsteigen und das Erlernte in einer operativen Umgebung einsetzen. Meine Kollegen der ORDIX AG und ich verwalten und entwickeln dort eine mehrschichtige Big Data-Plattform, welche die Speicherung und Verarbeitung von Datenvolumen im Petabyte-Bereich ermöglicht. Ohne das Traineeprogramm wäre es für mich nur schwer möglich gewesen, den Kontext der täglich benutzten Technologien und Werkzeuge im Kundenprojekt zu verstehen, geschweige denn zu betreiben oder sogar zu entwickeln.