Von HBase zu BigTable: Datenmigration aus einer Air-Gapped-Umgebung
Ihr habt vor, eure bisherige On-Premises Datenlandschaft in die Cloud zu migrieren? In unserem jüngsten Projekt für eine große deutsche Bank haben wir genau das gemeistert – und das unter besonders spannenden Bedingungen. In diesem Blog zeigen wir euch, wie wir HBase-Daten aus einer Air-Gapped-Umgebung erfolgreich in Google BigTable migriert haben.
Der Status Quo
Unser Kunde, eine der führenden Banken, verfolgt eine Cloud-First-Strategie – wie viele andere Unternehmen auch. Das Ziel ist eindeutig: weg von starren On-Premises-Systemen, hin zu flexiblen Cloud-Lösungen. Deshalb war klar, dass nicht nur Applikationen, sondern auch eine Vielzahl von Daten in die Google Cloud Platform (GCP) wandern sollten.
In diesem Projekt ging es darum, Daten aus der in die Jahre gekommenen Hortonworks Data Platform (HDP) in die Cloud zu migrieren. Die relevanten HBase-Tabellen werden in Google Cloud BigTable übertragen. Doch eine Besonderheit stellte uns vor Herausforderungen: Die Daten befanden sich in einer Air-Gapped-Umgebung, einem sicheren Bereich ohne direkte Verbindung zum Internet.
Google bietet zwar einen umfassenden Leitfaden zur Migration von HBase nach Bigtable, doch dieser war für unsere Situation leider nicht geeignet. Der Leitfaden sieht die Nutzung eines speziellen Tools vor, das eine direkte Verbindung von der Quellumgebung zur Google Cloud herstellt. In einer Air-Gapped-Umgebung ist dies jedoch nicht möglich. Außerdem erfordert das Tool mehrere JAR-Dateien auf den On-Premises-Servern, deren Installation aufgrund der Sicherheitsvorgaben mit erheblichem Aufwand verbunden wäre.
Unser Weg zum Ziel
Wir haben eine Lösung entwickelt, um die Herausforderungen der Air-Gapped-Umgebung zu überwinden. Dazu setzten wir auf Apache NiFi und Google Cloud Dataflow. Unser Ziel war die sichere und effiziente Übertragung der Daten von der On-Premises-Umgebung in die Google Cloud – und zwar ohne Gefährdung der Sicherheitsanforderungen.
HBase-Export im Sequence-Format
Wir haben uns bewusst für den Export im Sequence-Format entschieden, statt im Standardformat. Dieses Format spielt später noch eine zentrale Rolle!
NiFi als Datentransfer-Held
Wir setzten auf einen vorhandenen NiFi-Cluster – und hatten damit den entscheidenden Trumpf in der Hand. NiFi ist ein leistungsstarkes Tool für die Datenintegration und Automatisierung, das sich in diesem Projekt als unverzichtbar herausgestellt hat. Der NiFi-Cluster war die ideale Lösung, um die im Sequence-Format exportierten Snapshots direkt aus dem HDFS (Hadoop Distributed File System) zu sammeln und in einen Google Cloud Storage Bucket zu übertragen.
Dataflow für den Endspurt
Sobald die Daten in Google Cloud Storage lagen, importierten wir sie in BigTable. Hierbei setzten wir Google Cloud Dataflow ein. Google bietet für Dataflow ein Template, mit dem sich Sequence Files direkt in einen BigTable Cluster laden lassen. Das Template sorgte dafür, dass der Prozess effizient, skalierbar und wiederholbar war – ein entscheidender Vorteil.
Der Dataflow-Job wurde gestartet, um die Daten aus dem Storage Bucket in den vorbereiteten BigTable-Cluster zu laden. So konnten die Daten nahtlos in die neue Cloud-Umgebung integriert und in Betrieb genommen werden.
Fazit: Einfache, sichere und skalierbare Migration
Dank der Kombination aus Apache NiFi, Google Cloud Storage und Google Dataflow konnten wir die Migration der HBase-Tabellen auch unter den besonderen Bedingungen einer Air-Gapped-Umgebung erfolgreich durchführen. NiFi war für uns der entscheidende Faktor, denn es ermöglicht uns, die Daten flexibel und sicher zu transportieren – und zwar so, dass die strengen Sicherheitsrichtlinien zu keiner Zeit gefährdet werden.
Seminarempfehlungen
APACHE NIFI GRUNDLAGEN DB-BIG-07
Mehr erfahrenNIFI ADVANCED WORKSHOP DB-BIG-08
Mehr erfahrenAPACHE NIFI GRUNDLAGEN - KOSTENLOSES WEBINAR W-NIFI-01
Mehr erfahrenCLOUD COMPUTING ESSENTIALS CLOUD-COMP
Mehr erfahrenSenior Consultant bei ORDIX
Bei Updates im Blog, informieren wir per E-Mail.
Kommentare