Big Data &amp; AI

Trifacta Enterprise: Wrangeln bis der Arzt kommt

Die Datenverarbeitung wird mit der steigenden Menge der Daten unter Umständen zu einer großen Herausforderung. Besonders, wenn viele Datenquellen existieren und die enthaltenen Daten für die eigentliche Verarbeitung in einer suboptimalen Form vorhanden sind. Erst nachdem eine Vorverarbeitung durchgeführt wurde, kann die eigentliche Analyse und Vera...

Lesen

Mittwoch, 31. März 2021

Apache Kafka in a Nutshell

David Hagens

Data Management

Vielleicht haben Sie bereits von Apache Kafka gehört. Immerhin wird Kafka (laut eigener Aussage) in über 80% der 'Fortune-100'-Firmen eingesetzt. Doch was ist Kafka überhaupt? Im Folgenden möchte ich versuchen diese Frage zu beantworten. Dabei gehe ich lediglich auf die fachlichen und technischen Grundlagen ein. Eine Installationsanleitung&nbs...

Lesen

Dienstag, 16. März 2021

Cassandra NetWorker

ORDIX AG - Sales

Big Data & AI

EMC NetWorker ist eine häufig verwendete Backuplösung, welche von verschiedenen Unternehmen eingesetzt wird, um ihre Backup- und Recovery-Strategien umzusetzen. Die Software unterstützt durch seine eigenen Module für Datenbanken und Anwendungen (NMDA) die automatisierte Sicherung und Wiederherstellung einer Vielzahl von Softwaresystemen. Hierz...

Lesen

Dienstag, 09. März 2021

Einstieg in die Data Science Pipeline – Meine zweite Praxisphase

ORDIX AG - Sales

Data Management

Im Folgenden werde ich einen kleinen Einblick in die Welt der Data Science geben. Dabei stelle ich das Projekt meiner zweiten Praxisphase vor, mit dem äußerst langen Titel: Evaluierung & Dokumentation der Data Science Pipeline (mit Fokus auf den Data-Engineering-Kreislauf). Mittels Data Science können tiefere Erkenntnisse aus Massendaten gewonn...

Lesen

Donnerstag, 04. März 2021

Cloudera Cluster Automation mit Ansible (Teil 2)

ORDIX AG - Sales

Data Management

Zielsetzung Dieser Blog-Beitrag baut auf Teil 1 der Beitragsreihe zum Thema Cloudera Cluster Automation mit Ansible auf. Ziel dieser Reihe von Blog-Beiträgen ist es, einen Überblick über die Möglichkeiten für den automatisierten Aufbau eines Cloudera Clusters (CDH 6.x) mithilfe von Ansible zu geben. Die in diesem Artikel beschriebene Vor...

Lesen

Donnerstag, 11. Februar 2021

Software 2.0: Experiment Tracking - Fortsetzung

ORDIX AG - Sales

Data Management

Im ersten Teil wurden die konzeptionellen Unterschiede von herkömmlicher Softwareentwicklung zu „Software 2.0" näher beleuchtet. In diesem Artikel werden die Lösungen verschiedener Anbieter evaluiert und es wird ein konkreter Vergleich anhand der gebotenen Features aufgestellt. Zudem erfolgt eine Erläuterung der Schwerpunktrichtungen und eine Auswa...

Lesen

Mittwoch, 03. Februar 2021

BLEIBEN SIE INFORMIERT

BLEIBEN SIE INFORMIERT

Big Data & AI