(PySpark) on YARN - Behind the Scenes (Teil 2)
ORDIX AG
Data Management
In Teil eins wurde gezeigt, welche YARN Container und welche Linux Prozesse beim Aufruf der Spark Shell gestartet werden. Im zweiten Teil dieses Beitrags führt Olaf Hein aus, wie die Python Shell mit PySpark gestartet wird. Python + Spark Im letzten Beispiel wurde die Spark Shell für Scala verwendet. Bei der Verwendung von Python werden zusätzliche...
Weiterlesen
(PySpark) on YARN - Behind the Scenes (Teil 1)
ORDIX AG
Data Management
In den letzten Wochen wurde ich mehrfach von Kunden gefragt, was im Betriebssystem passiert, wenn Spark bzw. PySpark Jobs ausgeführt werden. Dabei waren vor allem die folgenden Fragen von Interesse: Welche Prozesse werden im Betriebssystem gestartet?Mit welchen Rechten werden diese Prozesse ausgeführt?Welcher Python Interpreter und welche Bibliothe...
Weiterlesen
DOAG Regionaltreffen Rhein-Main: Jetzt anmelden und teilhaben!
ORDIX AG
News
Am 10. September 2019 trifft sich die DOAG Regionalgruppe Rhein-Main in Wiesbaden zum Austausch und Networken. Thema des Treffen ist Big Data für den DBA. Melden Sie sich jetzt an und seien Sie dabei. ORDIX AGKreuzberger Ring 1365205 Wiesbaden 10. September 2019, 18 Uhr 18:00 UhrBegrüßung und Neues von der DOAGThomas Tretter, DOAG e.V.18:15 UhrÜber...
Weiterlesen
Apache Kudu 1.10 - jetzt mit Autorisierung & Backup
ORDIX AG
Data Management
Am 9. Juli wurde Apache Kudu 1.10 veröffentlicht. Nur wenige Wochen später hat Cloudera diese Kudu-Version in die neue Hadoop-Distribution CDH 6.3 integriert. Neben vielen Detailverbesserungen und Fehlerkorrekturen enthält Kudu jetzt einige, seit langem erwartete neue Features: Hive Metastore Integration"fine-grained authorization via integration w...
Weiterlesen
Einstieg in Neuronale Netze mit TensorFlow und Keras
ORDIX AG
Data Management
Aus der Toolbox des Data Scientists sind sie nicht mehr wegzudenken: Neuronale Netze finden zunehmend überall dort Verbreitung, wo aus Daten Vorhersagen gemacht werden sollen. Ihre Innovation ist einfach beschrieben, aber schwer vorstellbar: Neuronale Netze modellieren Prozesse, die über das menschliche Verständnis hinausgehen. Mit TensorFlow exist...
Weiterlesen
Metricbeat und seine Vorteile
ORDIX AG
System Integration
Metricbeat ist ein Teil der Beats Familie. Shipper aus dieser Familie kommen zum Einsatz, sobald Informationen im Elastic Stack Umfeld an die Plattform geliefert werden sollen. Die größte Verbreitung innerhalb der Beats Familie hat der Filebeat. Als Log File Shipper kommt dieser in vielen Standard-Installation direkt zum Einsatz. Neben dem Verarbei...
Weiterlesen