Let's commit! Dataflows versionieren mit der NiFi Registry
Janis Ax
Data Management
Nutzen Sie bereits Apache NiFi oder planen Sie es? Dann sollten Sie sich das zugehörige Subprojekt NiFi Registry anschauen! Mit der Apache NiFi Registry können Sie Ihre Dataflows schnell und einfach versionieren, sichern und exportieren. In diesem Blogbeitrag wollen wir auf die Besonderheiten der Registry, die allgemeine Vorgehensweise und natürlic...
Weiterlesen
Pandas Profiler statt Excel für die Ermittlung des Data-Value
Felix Uellendahl
Data Management
In den Daten so mancher Firma stecke ein größerer Wert, so liest man es immer wieder. Aber wie kann dieser Wert ermittelt werden? Ausgangspunkt sollte hier eine fundierte Betrachtung der Datenbestände sein. Mit der Open-Source Bibliothek „Pandas Profiling" können verfügbare Daten in Tabellenformat, einer effizienten Analyse unterzogen werden. Dies ...
Weiterlesen
Variablen? Parameter? Was denn nun? Wie ein Dataflow in Apache NiFi parametrisiert wird
Janis Ax
Data Management
Wie in jeder Programmiersprache ergibt es auch in Apache NiFi Sinn, einen Dataflow zu parametrisieren. Allerdings gibt es in NiFi zwei Möglichkeiten: Variablen und die relativ neuen Parameter. Was die Unterschiede und Vorteile sind und warum Parameter genutzt werden sollten, klären wir in diesem Blogartikel. Wie in jeder Programmiersprache und...
Weiterlesen
Chatbots: Missverstehen, aber richtig.
ORDIX AG
Big Data & AI
Wie können Chatbots Menschen verstehen? Sogar mit Tippfehlern! Chatbots können als Schnittstelle zwischen der menschenverständlichen Sprache und einer strukturierten maschinenlesbaren Repräsentation ebendieser verstanden werden. In diesem Artikel wird anhand von Beispielen erläutert in welche Teilprozesse sich der Verständnisprozess eines Chatbots ...
Weiterlesen
Der Cassandra Effekt oder wie man NoSQL-Datenbanken in Container integriert
Calvin Knoke
Big Data & AI
Apache Cassandra befindet sich weiterhin unter den Top 10 der NoSQL-Datenbanken und ist sowohl frei als auch kostenpflichtig in der DataStax Distribution erhältlich. Größere Unternehmen wie Netflix und Apple verwenden Cassandra stets für die Organisation von großen Datenmengen, wie z.B. der Empfehlung von weiteren Serien im eigenen Netflix Dashboar...
Weiterlesen
Talend, NiFi, Spark & Pandas als Data- Engineering-Tools? - Datapreprocessing von Wetterdaten
Ronny Horst
Karriere
In meinem letzten Blogartikel habe ich die Data Science Pipeline (DSP) und insbesondere den Bereich des Data Engineerings anhand meines Praxisprojekts "Evaluierung & Dokumentation der Data Science Pipeline (mit Fokus auf den Data Engineering Kreislauf)" vorgestellt. Dabei lag der Fokus vor allem auf den verschiedenen Arbeitsschritten des Data E...
Weiterlesen