Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 1)

Neuigkeiten im Überblick - Apache Hadoop 3 (Teil 1)
Die Features der Hadoop Version 3 sind bereits seit Ende 2017 verfügbar, wurden aber erst Mitte 2018 von den großen kommerziellen Distributionen adaptiert. Es gibt zu beachtende Änderungen, wie zum Beispiel die Neubelegung der Service Ports, aber auch neue  Features, wie den Support für Erasure Coding innerhalb des HDFS. Die Plattformen  ...
Weiterlesen

Big Data – Informationen neu gelebt (Teil VIII): Hadoop Security

Big Data – Informationen neu gelebt (Teil VIII): Hadoop Security
Zu einem der am meisten genutzten Technologien im Bereich Big Data gehört Hadoop. Das Hadoop-Kernsystem besteht dabei aus dem Hadoop Distributed File System (HDFS), dem Ressourcenmanager YARN (Yet Another Resource Negotiator) und dem MapReduce- Framework. Daneben gibt es noch viele weitere Komponenten, die mit den Hadoop-Kernkomponenten interagiere...
Weiterlesen

Apache Kudu: Big Data – Informationen neu gelebt (Teil VII)

Apache Kudu: Big Data – Informationen neu gelebt (Teil VII)
Im September 2016 wurde die Version 1.0 von Apache Kudu veröffentlich. Seit Januar 2017 ist Kudu vollständig in die Hadoop-Distribution von Cloudera integriert und für den produktiven Einsatz freigegeben. Somit gibt es jetzt eine weitere Datenbank im Hadoop Zoo. Aber warum wird überhaupt eine weitere Datenbank benötigt? Was ist das Besondere an Kud...
Weiterlesen

Python Generator-Funktionen und -Expressions: Ein alter Hut kann auch modern sein

Python Generator-Funktionen und -Expressions: Ein alter Hut kann auch modern sein
Funktionen wie filter() , map() und zip() geben seit Python 3 keine Liste, sondern einen Iterator zurück. Dadurch muss nicht die gesamte Liste im Speicher gehalten werden, sondern immer nur das aktuelle Objekt. Dies ist wesentlich effizienter und eine gute Vorlage für das Design von eigenem Code. Schon seit Python 2.3 bzw. 2.4 können Generator-Funk...
Weiterlesen

Data Mining in der Praxis (Teil II): Klassifikation

Data Mining in der Praxis (Teil II): Klassifikation
Ist eine E-Mail Spam oder nicht? Welcher Kundengruppe gehört ein Neukunde wahrscheinlich an und mit welcher Werbeansprache kann ich ihn am besten erreichen? Solche und verwandte Fragen sind typische Aufgaben für eine Klassifikation. Aufgrund vorhandener Daten werden Modelle erstellt, die für neue Daten Vorhersagen treffen können. In diesem Artikel ...
Weiterlesen

Softwareentwicklung auf einem höheren Level: Continuous Integration – Warum und wofür?

Softwareentwicklung auf einem höheren Level: Continuous Integration – Warum und wofür?
Die agile Softwareentwicklung versucht mit wenigen festgelegten Regeln, geringem Aufwand und meist einem iterativen Vorgehen, den Entwicklungsprozess voranzutreiben. Doch oft kommt es zu Problemen, wie instabile Build-Prozesse, schwierige Integration von Komponenten und unzureichende Testabdeckungen. Continuous Integration (CI) ist hier ein bewährt...
Weiterlesen