Schlange liebt Elefant - Conda Environments mit PySpark und Hadoop verwenden
ORDIX AG
Data Management
Für Data Science und Maschinelles Lernen sind Python und die vielen verfügbaren Bibliotheken essenzielle Werkzeuge. Für die Speicherung von großen Datenmengen hat sich Hadoop bewährt und mit PySpark gibt es eine einfache Möglichkeit, die Daten im Hadoop Cluster mit Python zu verarbeiten. Für die Arbeit mit Python wird in der Praxis oft die Anaconda...
Weiterlesen
Cloudera Cluster Automation mit Ansible (Teil 1)
ORDIX AG
Data Management
Zielsetzung  Ziel dieses Blog-Beitrags ist es, einen Überblick über die Möglichkeiten für den automatisierten Aufbau eines Cloudera Clusters (CDH 6.x) mit Hilfe von Ansible zu geben. Zunächst werden die allgemeine Vorgehensweise und die notwendigen Voraussetzungen betrachtet und anschließend konkrete Lösungen für den Aufbau eines Cloudera Clus...
Weiterlesen
Software 2.0: Wie sieht ein Entwicklungzyklus von AI-Systemen aus?
Paul Christ
Data Management
In der herkömmlichen Softwareentwicklung haben Versionsverwaltungssysteme wie Git und darauf aufsetzende Deployment-Tools längst Einzug gehalten und sind aus dem Entwicklungsalltag nicht mehr wegzudenken. In der vergleichsweisen jungen Disziplin des modernen Machine Learning wurden diese erprobten Konzepte im Laufe der Zeit auf die zusätzlichen Anf...
Weiterlesen
Apache Hive 3 Transactional Tables - Ein Elefant im Bienenstock
Dennis Hermann
Data Management
Mit dem Release 3.1.0 der Hortonworks Data Platform (HDP) hat auch Hive 3 Einzug in die Hadoop-Distribution gehalten. Mit Hive 3 wurde die ACID-Funktionalität stark verbessert, sodass Transactional Tables nun der Standard-Tabellentyp sind. Wie Transactional Tables verwendet werden, was es bezüglich des darunterliegenden Dateisystems zu beachte...
Weiterlesen
Künstliche Intelligenz in Produktion mit MLflow – Teil 3: Model Serving
ORDIX AG
Data Management
Dieser Teil der Reihe dreht sich um die Herausforderungen von Model Serving. In Teil 2 wurde das Modul MLflow Models eingeführt und gezeigt, wie ein trainiertes Modell im Artifact Store gespeichert werden kann. In diesem Teil wird vorgestellt, wie ein solches Modell in verschiedenen Formen bereitgestellt werden kann. Problem 3: Model Serving Wenn e...
Weiterlesen
Künstliche Intelligenz in Produktion mit MLflow – Teil 2: Model Management
ORDIX AG
Data Management
In Teil 1 wurde gezeigt, wie mit MLflow in der Entwicklungsphase der Überblick über Metriken und Parameter behalten werden kann. Im zweiten Teil werden die Herausforderungen beschrieben, die sich beim Model Management ergeben. Problem 2: Model Management Trainierte Modelle werden in der Regel in anderen Software-Umgebungen eingesetzt als denen, in ...
Weiterlesen