Big Data – Informationen neu gelebt (Teil VIII): Hadoop Security

Zu einem der am meisten genutzten Technologien im Bereich Big Data gehört Hadoop. Das Hadoop-Kernsystem besteht dabei aus dem Hadoop Distributed File System (HDFS), dem Ressourcenmanager YARN (Yet Another Resource Negotiator) und dem MapReduce- Framework. Daneben gibt es noch viele weitere Komponenten, die mit den Hadoop-Kernkomponenten interagiere...
2
Weiterlesen
1024 Hits

Apache Kudu: Big Data – Informationen neu gelebt (Teil VII)

Im September 2016 wurde die Version 1.0 von Apache Kudu veröffentlich. Seit Januar 2017 ist Kudu vollständig in die Hadoop-Distribution von Cloudera integriert und für den produktiven Einsatz freigegeben. Somit gibt es jetzt eine weitere Datenbank im Hadoop Zoo. Aber warum wird überhaupt eine weitere Datenbank benötigt? Was ist das Besondere an Kud...
0
Weiterlesen
1005 Hits

Python Generator-Funktionen und -Expressions: Ein alter Hut kann auch modern sein

Funktionen wie filter(), map() und zip() geben seit Python 3 keine Liste, sondern einen Iterator zurück. Dadurch muss nicht die gesamte Liste im Speicher gehalten werden, sondern immer nur das aktuelle Objekt. Dies ist wesentlich effizienter und eine gute Vorlage für das Design von eigenem Code. Schon seit Python 2.3 bzw. 2.4 können Generator-Funkt...
0
Weiterlesen
1268 Hits

Data Mining in der Praxis (Teil II): Klassifikation

Ist eine E-Mail Spam oder nicht? Welcher Kundengruppe gehört ein Neukunde wahrscheinlich an und mit welcher Werbeansprache kann ich ihn am besten erreichen? Solche und verwandte Fragen sind typische Aufgaben für eine Klassifikation. Aufgrund vorhandener Daten werden Modelle erstellt, die für neue Daten Vorhersagen treffen können. In diesem Artikel ...
1
Weiterlesen
1623 Hits

Softwareentwicklung auf einem höheren Level: Continuous Integration – Warum und wofür?

Die agile Softwareentwicklung versucht mit wenigen festgelegten Regeln, geringem Aufwand und meist einem iterativen Vorgehen, den Entwicklungsprozess voranzutreiben. Doch oft kommt es zu Problemen, wie instabile Build-Prozesse, schwierige Integration von Komponenten und unzureichende Testabdeckungen. Continuous Integration (CI) ist hier ein bewährt...
1
Weiterlesen
1593 Hits

Big Data – Informationen neu gelebt (Teil VI): Redis: Key Value einmal anders

Im Kontext von NoSQL-Datenbanken denken viele mit Apache Cassandra, MongoDB und Neo4j zunächst an die klassischen Vertreter der Wide Column Stores, Document Stores oder der Graphdatenbanken. Key Value Stores werden dagegen, trotz ihrer besonderen Eigenschaften, nur wenig berücksichtigt. In diesem Artikel wird daher der Fokus auf diese Kategorie von...
1
Weiterlesen
1442 Hits

ORDIX® news 1/2017 - Data Mining in der Praxis (Teil I): Was ist Data Mining?

Daten sind das Unternehmenskapital der Zukunft. Wertvoll wird dieses Kapital allerdings erst, wenn es sinnvoll eingesetzt wird. Data Mining ist eine Ansammlung von Prozessen und Methoden, die dazu dienen, Erkenntnisse aus Daten zu ziehen und diese zur Wert­schöpfung einzusetzen. Diese neue Artikelserie zum Thema Data Mining gibt mit dem ersten Arti...
1
Weiterlesen
1312 Hits

Daten mit Format – Lösungen zur Datenablage in Hadoop

Durch das verteilte Dateisystem HDFS ermöglicht Hadoop die zuverlässige Ablage großer Datenmengen sowie die effiziente Abfrage der Daten durch paralleles Auslesen. Damit Hadoop selbst und andere Applikationen aus dem Big-Data-Umfeld von diesen Vorteilen profitieren können, müssen die verwendeten Dateiformate bestimmte Anforderungen erfüllen. Im Rah...
1
Weiterlesen
2260 Hits

Unsere Autoren

Technologie Blogs

Tutorials

4 members

Webentwicklung

3 members

Java

3 members

Archiv | Blog-Beiträge

Login