Von Aron Tigor Möllers auf Donnerstag, 04. Juli 2019
Kategorie: Data Management

Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 3)

Fortsetzung des Blogartikels Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 2)

Wir geben einen Überblick über die Neuerungen und beleuchten die wichtigen Features der neuen Hadoop-Version.

Verbesserte Clusterauslastung durch Yarn Opportunistic Containers

Um die Effizienz eines Hadoop Clusters zu erhöhen, muss die Ressourcenauslastung (Prozessor, Hauptspeicher) über einen Zeitraum möglichst gleich verteilt sein. Mit
Opportunistic Containers bietet Hadoop 3 eine Möglichkeit an, dies zu erreichen.

Mit einem neuen Feature soll die Ressourcenauslastung (Prozessor, Hauptspeicher) über Yarn verbessert werden. Die Opportunistic Containers ermöglichen den Start einer Applikation mit garantierten Containern und opportunistischen Containern. Für Erstere müssen zum Startzeitpunkt ausreichend Ressourcen verfügbar sein – für Letztere können Ressourcen zusätzlich allokiert werden, sofern welche zur Verfügung stehen. Opportunistic Containers können gestoppt (Preemption) werden, falls auf einem NodeManager ein anderer Container mit Ausführungs­garantie eintrifft.

Was ändert sich noch mit Hadoop 3?

Portbelegungen

Weil die Portbelegungen von Hadoop 2 gegen die Empfehlungen der IANA für temporäre Ports verstoßen, wurden die Belegungen in Hadoop 3 angepasst. Die Ports im Bereich zwischen 49152 und 65535 sind für dynamische, temporäre Zuweisungen vorgesehen.

In Hadoop 3 wird daher auf Ports im Bereich zwischen 9600 und 9871 ausgewichen. Zusätzlich wurde für KMS der Standard-Port geändert, um Konflikten mit dem Apache HBase Master Service vorzubeugen.

Service ​Hadoop 2 ​Hadoop 3
​HDFS NameNode ​50470 ​9871
​50070​9870
​8020​9820
​HDFS Secondary NameNode​50091​9869
​50090​9868
​HDFS DataNode​50020​9867
​50010​9866
​50475​9865
​50075​9864
​KMS Service​16000​9600

Fazit

Hadoop 3 bietet neue Features, die vor allem Vorteile für den Produktiveinsatz bringen. Mit Erasure Coding kann der Datenverbrauch durch das HDFS reduziert werden, was Kosteneinsparungen bei der Hardware mit sich bringt, ohne dabei auf Verlusttoleranz verzichten zu müssen. Die Erweiterung oder der Austausch von Festplattenspeicher wird mit dem Intra DataNode Diskbalancer nun erheblich vereinfacht. Der Einsatz mehrerer NameNodes bietet noch mehr Ausfallsicherheit im Betrieb. Und die Ressourcenauslastung wird durch die Yarn Opportunistic Containers zusätzlich erhöht. Zu beachten sind die Änderungen der Service-Ports, die mögliche Rekonfiguration der Firewall-Einstellungen mit sich bringen. Die Migration auf Java 8 ist der logische Schritt, um eine Langlebigkeit zu gewährleisten.

Links/Quellen

Seminarempfehlung: Big Data – Apache Hadoop Grundlagen

Wir leben in einer Zeit, in der immer mehr Daten in immer kürzerer Zeit gespeichert und verarbeitet werden müssen. Klassische relationale Datenbanken stoßen dabei immer öfter an Ihre Grenzen. Hier setzt das Apache Hadoop Framework an. In diesem Seminar bekommen Sie einen Überblick über die wichtigsten Komponenten des Hadoop Ökosystems. In praktischen Übungen wenden Sie das Erlernte an. Unter anderem verwenden Sie die Hadoop File System Shell, programmieren Spark Jobs, analysieren Daten mit HiveQL oder administrieren das HDFS und YARN.

Informationen/Online-Anmeldung: https://seminare.ordix.de/seminare/big-data-und-data-warehouse/big-data/big-data-apache-hadoop-grundlagen.html

Seminarinhalte

Kommentare hinterlassen