Apache Hive Query Troubleshooting – Grundlagen zur Fehlerbehebung bei Hive-Abfragen
Fuad Mustafazadeh
Big Data & AI
Mit der Einführung von Apache Hive 3 wurden viele Funktionen und Möglichkeiten der Datenverarbeitung in Hadoop-Umgebungen erweitert, einschließlich der Unterstützung für transaktionale Tabellen. Im Artikel „Apache Hive 3 Transactional Tables - Ein Elefant im Bienenstock“ (siehe hier) wird anhand von mehreren Beispielen erklärt, wie die neue AC...
Weiterlesen
Der Zoowärter braucht Unterstützung - Komplexität und Abhängigkeiten im Hadoop-Zoo
Christoph Lukasseck
Data Management
Hadoop-Cluster bilden eine komplexe Plattform. Dies wird anhand der Kette von Abhängigkeiten aller involvierter Services eines Hive-Jobs aufgezeigt. In diesem Blogartikel geben wir Tipps, an welchen Stellen ein Admin bzw. Zoowärter die Fehlersuche beginnen kann. Ebenso bietet es Anwendern einen detaillierteren Einblick und ein besseres Verständnis ...
Weiterlesen
Dataproc, eine skalierbare Hadoop-Distribution in der Google Cloud
Dominik Kramps
Big Data & AI
Dieser Artikel macht den Aufbau eines Dataproc Clusters in der GCP (Google Cloud Platform) verständlich und ermöglicht es dem Leser ein eigenes Dataproc Cluster in der GCP zu erstellen.  Was ist Dataproc? Dataproc bietet eine vollständig verwaltete Plattform zur Verarbeitung großer Datenmengen, die in der GCP gehostet wird und eine nahtlose In...
Weiterlesen
Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 3)
Aron Tigor Möllers
Data Management
Fortsetzung des Blogartikels Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 2) Wir geben einen Überblick über die Neuerungen und beleuchten die wichtigen Features der neuen Hadoop-Version. Verbesserte Clusterauslastung durch Yarn Opportunistic Containers Um die Effizienz eines Hadoop Clusters zu erhöhen, muss die Ressourcenauslastung (Prozessor, ...
Weiterlesen
Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 2)
Aron Tigor Möllers
Data Management
Fortsetzung des Blogartikels Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 1) Wir geben einen Überblick über die Neuerungen und beleuchten die wichtigen Features der neuen Hadoop-Version. Konfiguration mehrerer HDFS NameNodes Die Konfiguration mehrerer NameNodes erfolgt über die core-site.xml und hdfs-site.xml. Folgende Properties müssen gesetzt...
Weiterlesen
Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 1)
Aron Tigor Möllers
Data Management
Die Features der Hadoop Version 3 sind bereits seit Ende 2017 verfügbar, wurden aber erst Mitte 2018 von den großen kommerziellen Distributionen adaptiert. Es gibt zu beachtende Änderungen, wie zum Beispiel die Neubelegung der Service Ports, aber auch neue Features, wie den Support für Erasure Coding innerhalb des HDFS. Die Plattformen Ho...
Weiterlesen