Abonnieren Sie unseren Blog-Newsletter und erhalten Sie regelmäßige Updates zu unseren neuesten Artikeln!

Der Zoowärter braucht Unterstützung - Komplexität und Abhängigkeiten im Hadoop-Zoo
Christoph Lukasseck
Data Management
Hadoop-Cluster bilden eine komplexe Plattform. Dies wird anhand der Kette von Abhängigkeiten aller involvierter Services eines Hive-Jobs aufgezeigt. In diesem Blogartikel geben wir Tipps, an welchen Stellen ein Admin bzw. Zoowärter die Fehlersuche beginnen kann. Ebenso bietet es Anwendern einen detaillierteren Einblick und ein besseres Verständnis ...
Weiterlesen
Dataproc, eine skalierbare Hadoop-Distribution in der Google Cloud
Dominik Kramps
Big Data & AI
Dieser Artikel macht den Aufbau eines Dataproc Clusters in der GCP (Google Cloud Platform) verständlich und ermöglicht es dem Leser ein eigenes Dataproc Cluster in der GCP zu erstellen.  Was ist Dataproc? Dataproc bietet eine vollständig verwaltete Plattform zur Verarbeitung großer Datenmengen, die in der GCP gehostet wird und eine nahtlose In...
Weiterlesen
Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 3)
Aron Tigor Möllers
Data Management
Fortsetzung des Blogartikels Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 2) Wir geben einen Überblick über die Neuerungen und beleuchten die wichtigen Features der neuen Hadoop-Version. Verbesserte Clusterauslastung durch Yarn Opportunistic Containers Um die Effizienz eines Hadoop Clusters zu erhöhen, muss die Ressourcenauslastung (Prozessor, ...
Weiterlesen
Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 2)
Aron Tigor Möllers
Data Management
Fortsetzung des Blogartikels Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 1) Wir geben einen Überblick über die Neuerungen und beleuchten die wichtigen Features der neuen Hadoop-Version. Konfiguration mehrerer HDFS NameNodes Die Konfiguration mehrerer NameNodes erfolgt über die core-site.xml und hdfs-site.xml. Folgende Properties müssen gesetzt...
Weiterlesen
Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 1)
Aron Tigor Möllers
Data Management
Die Features der Hadoop Version 3 sind bereits seit Ende 2017 verfügbar, wurden aber erst Mitte 2018 von den großen kommerziellen Distributionen adaptiert. Es gibt zu beachtende Änderungen, wie zum Beispiel die Neubelegung der Service Ports, aber auch neue Features, wie den Support für Erasure Coding innerhalb des HDFS. Die Plattformen Ho...
Weiterlesen
Big Data – Informationen neu gelebt (Teil VIII): Hadoop Security
Patrick Kramer
Data Management
Zu einem der am meisten genutzten Technologien im Bereich Big Data gehört Hadoop. Das Hadoop-Kernsystem besteht dabei aus dem Hadoop Distributed File System (HDFS), dem Ressourcenmanager YARN (Yet Another Resource Negotiator) und dem MapReduce- Framework. Daneben gibt es noch viele weitere Komponenten, die mit den Hadoop-Kernkomponenten interagiere...
Weiterlesen