(PySpark) on YARN - Behind the Scenes (Teil 4)

pyspark-4
In Teil drei wurde gezeigt, wie unterschiedliche Python Versionen innerhalb eines Hadoop Clusters genutzt werden können. Im letzten Teil dieses Beitrags führt Olaf Hein unter anderem aus, wie mehr Sicherheit mit dem YARN-Container Executor realisiert wird. Mehr Sicherheit mit dem YARN Container Executor  In den bisherigen Beispielen wurden die...
Weiterlesen

(PySpark) on YARN - Behind the Scenes (Teil 3)

pyspark-3
In Teil 2 wurde gezeigt, welche Prozesse bei der Verwendung der PySpark Shell verwendet werden. Im dritten Teil geht Olaf Hein auf die Verwendung unterschiedlicher Python Versionen ein. Verwendung unterschiedlicher Python Versionen  Im letzten Beispiel wurde die Standard Python Installation des Betriebssystems verwendet. Wenn eine andere Pytho...
Weiterlesen

(PySpark) on YARN - Behind the Scenes (Teil 2)

pyspark-2
In Teil eins wurde gezeigt, welche YARN Container und welche Linux Prozesse beim Aufruf der Spark Shell gestartet werden. Im zweiten Teil dieses Beitrags führt Olaf Hein aus, wie die Python Shell mit PySpark gestartet wird. Python + Spark ​ Im letzten Beispiel wurde die Spark Shell für Scala verwendet. Bei der Verwendung von Python werden zusätzlic...
Weiterlesen

(PySpark) on YARN - Behind the Scenes (Teil 1)

pyspark-1
In den letzten Wochen wurde ich mehrfach von Kunden gefragt, was im Betriebssystem passiert, wenn Spark bzw. PySpark Jobs ausgeführt werden. Dabei waren vor allem die folgenden Fragen von Interesse: Welche Prozesse werden im Betriebssystem gestartet? Mit welchen Rechten werden diese Prozesse ausgeführt? Welcher Python Interpreter und welche Bibliot...
Weiterlesen

Apache Kudu 1.10 - jetzt mit Autorisierung & Backup

kudu
Am 9. Juli wurde Apache Kudu 1.10 veröffentlicht. Nur wenige Wochen später hat Cloudera diese Kudu-Version in die neue Hadoop-Distribution CDH 6.3 integriert. Neben vielen Detailverbesserungen und Fehlerkorrekturen enthält Kudu jetzt einige, seit langem erwartete neue Features: Hive Metastore Integration "fine-grained authorization via integration ...
Weiterlesen

Rückblick: Data Works Summit 2019 in Barcelona

Rückblick: Data Works Summit 2019 in Barcelona
Vom 18. bis 21. März fand der Data Works Summit in Barcelona statt. Dort konnten sich die Teilnehmer zu Big Data, AI und Cloud Themen informieren. Schwerpunkte waren Technologien und Lösungen, bei denen Hadoop und weitere Komponenten aus dem Hadoop Ökosystem eine zentrale Rolle spielen. Die Konferenz begann am Montag mit dem zweitägigen Training "H...
Weiterlesen