Big Data &amp; AI

Der Cassandra Effekt oder wie man NoSQL-Datenbanken in Container integriert

Apache Cassandra befindet sich weiterhin unter den Top 10 der NoSQL-Datenbanken und ist sowohl frei als auch kostenpflichtig in der DataStax Distribution erhältlich. Größere Unternehmen wie Netflix und Apple verwenden Cassandra stets für die Organisation von großen Datenmengen, wie z.B. der Empfehlung von weiteren Serien im eigenen Netflix Dashboar...

Freitag, 08. Oktober 2021

Automatisierte Fehlererkennung auf Basis von Log-Dateien

ORDIX AG

Data Management

"Suche nicht nach Fehlern, suche nach Lösungen" (Henry Ford) Log-Dateien dokumentieren das Verhalten einer Anwendung oder eines Systems. Die Analyse dieser Daten ist damit ein Schlüsselfaktor für die Sicherheit, Stabilität und Nutzbarkeit der Komponenten. In vielen Applikationen beinhalten die Log-Dateien aber auch Fehler oder Warnungen, bei denen ...

Donnerstag, 30. September 2021

Apache NiFi: Zurück zum Code? Was kann die nipyapi?

Janis Ax

Big Data & AI

Apache NiFi erfreut sich weiter steigender Beliebtheit. Vor allem Entwickler:innen schätzen die über den Browser erreichbare Web-UI. Dadurch lassen sich mit wenigen Klicks anspruchsvolle Flows erstellen, die Daten transformieren und transportieren können. Für NiFi Admins oder Operators kann die UI jedoch unbequem werden. Immer wiederkehrende Tätigk...

Donnerstag, 16. September 2021

Talend, NiFi, Spark & Pandas als Data- Engineering-Tools? - Datapreprocessing von Wetterdaten

ORDIX AG

Karriere

In meinem letzten Blogartikel habe ich die Data Science Pipeline (DSP) und insbesondere den Bereich des Data Engineerings anhand meines Praxisprojekts "Evaluierung & Dokumentation der Data Science Pipeline (mit Fokus auf den Data Engineering Kreislauf)" vorgestellt. Dabei lag der Fokus vor allem auf den verschiedenen Arbeitsschritten des Data E...

Donnerstag, 26. August 2021

Data Science Workbench in der Google Cloud

David Hagens

Data Management

Für interne Data-Science-Arbeiten soll eine Data Science Workbench in Form einer verwalteten JupyterLab-Instanz in der Google Cloud erstellt werden. Die JupyterLab Instanzen sollen automatisiert gestartet und gestoppt werden können, um dem jeweils aktuellen Bedarf gerecht werden zu können und um Kosten einzusparen. Doch wie könnte eine solche ...

Dienstag, 13. Juli 2021

Experimente mit dem Backup und Restore von Apache Kudu

ORDIX AG

Data Management

In der ORDIX news wurde bereits die Apache Kudu Datenbank vorgestellt. Im Juli 2019 wurde dann die Version 1.10.0 der Kudu Datenbank veröffentlicht. Über die Neuerungen berichtete Olaf Hein in einem ORDIX blog Beitrag. In diesem Beitrag wird die in der Version 1.10.0 implementierte Backup-Funktionalität sowie die Möglichkeit zur Analyse der Backups...

Mittwoch, 16. Juni 2021