Einstieg in die Data Science Pipeline – Meine zweite Praxisphase
Ronny Horst
Data Management
Im Folgenden werde ich einen kleinen Einblick in die Welt der Data Science geben. Dabei stelle ich das Projekt meiner zweiten Praxisphase vor, mit dem äußerst langen Titel: Evaluierung & Dokumentation der Data Science Pipeline (mit Fokus auf den Data-Engineering-Kreislauf). Mittels Data Science können tiefere Erkenntnisse aus Massendaten gewonn...
Weiterlesen
Cloudera Cluster Automation mit Ansible (Teil 2)
Johannes Julius Schmitz
Data Management
Zielsetzung Dieser Blog-Beitrag baut auf  Teil 1 der Beitragsreihe zum Thema Cloudera Cluster Automation mit Ansible auf. Ziel dieser Reihe von Blog-Beiträgen ist es, einen Überblick über die Möglichkeiten für den automatisierten Aufbau eines Cloudera Clusters (CDH 6.x) mithilfe von Ansible zu geben. Die in diesem Artikel beschriebene Vor...
Weiterlesen
Software 2.0: Experiment Tracking - Fortsetzung
Paul Christ
Data Management
Im ersten Teil wurden die konzeptionellen Unterschiede von herkömmlicher Softwareentwicklung zu „Software 2.0" näher beleuchtet. In diesem Artikel werden die Lösungen verschiedener Anbieter evaluiert und es wird ein konkreter Vergleich anhand der gebotenen Features aufgestellt. Zudem erfolgt eine Erläuterung der Schwerpunktrichtungen und eine Auswa...
Weiterlesen
Cloudera Cluster Automation mit Ansible (Teil 1)
Johannes Julius Schmitz
Data Management
Zielsetzung  Ziel dieses Blog-Beitrags ist es, einen Überblick über die Möglichkeiten für den automatisierten Aufbau eines Cloudera Clusters (CDH 6.x) mit Hilfe von Ansible zu geben. Zunächst werden die allgemeine Vorgehensweise und die notwendigen Voraussetzungen betrachtet und anschließend konkrete Lösungen für den Aufbau eines Cloudera Clus...
Weiterlesen
Software 2.0: Wie sieht ein Entwicklungzyklus von AI-Systemen aus?
Paul Christ
Data Management
In der herkömmlichen Softwareentwicklung haben Versionsverwaltungssysteme wie Git und darauf aufsetzende Deployment-Tools längst Einzug gehalten und sind aus dem Entwicklungsalltag nicht mehr wegzudenken. In der vergleichsweisen jungen Disziplin des modernen Machine Learning wurden diese erprobten Konzepte im Laufe der Zeit auf die zusätzlichen Anf...
Weiterlesen
Apache Hive 3 Transactional Tables - Ein Elefant im Bienenstock
Dennis Bruhn
Data Management
Mit dem Release 3.1.0 der Hortonworks Data Platform (HDP) hat auch Hive 3 Einzug in die Hadoop-Distribution gehalten. Mit Hive 3 wurde die ACID-Funktionalität stark verbessert, sodass Transactional Tables nun der Standard-Tabellentyp sind. Wie Transactional Tables verwendet werden, was es bezüglich des darunterliegenden Dateisystems zu beachte...
Weiterlesen