Auch in diesem Jahr wird die ORDIX AG wieder auf den Frankfurter IT-Tagen vom 11.-14.12.2017 vertreten sein. Neben dem ORDIX Ausstellerstand freuen wir uns besonders mit zwei Vorträgen und einem Workshop aus dem Bereich Data Sciene vertreten zu sein.
Workshop - Data Science: Hadoop und NoSQL in einem Boot. Vom Algorithmus bis zum Einsatz im Cluster
Am ersten Tag der IT-Tage bietet Ihnen unser Experte für Big Data und NoSQL-Datenbanken einen Workshop zum Thema: Data Science: Hadoop und NoSQL in einem Boot. Vom Algorithmus bis zum Einsatz im Cluster an. Unter Einsatz der Programmiersprache Python wird in das Thema Data Science eingeführt.
Data Science ist die Wissenschaft, Wissen aus Daten zu extrahieren. Dabei werden unter anderem vorhandene, bisher eventuell ungenutzte Daten in einem Unternehmen verwendet, neu verknüpft und ausgewertet, um beispielsweise neue Geschäftsfelder zu erschließen bzw. vorhandene Geschäftsfelder effizienter zu bearbeiten.
Unter Einsatz der Programmiersprache Python wird in das Thema Data Science eingeführt. Anhand konkreter Beispiele werden Daten klassifiziert, Regressionsmodelle erstellt und Vorhersagen getroffen. Schließlich wird mithilfe eines neuronalen Netzes eine Bilderkennung durchgeführt. Begleitet werden die praxisnahen Beispiele durch eine Einführung in Clusteranalyse, Ausreißeranalyse, Deep Learning sowie die Theorie der statistischen Grundlagen.
In einem zweiten Teil wird der Bogen zur Verwendung der Methoden des Bereiches Data Science im Big Data Umfeld gespannt. Mit Hadoop und Spark werden zwei Werkzeuge vorgestellt, mit denen in einem Cluster verteilt Daten gespeichert und Modelle berechnet werden können.
Als Datenhaltungsschicht wird eine NoSQL Datenbank eingeführt. In einem Beispiel werden Daten mithilfe von Python und Spark in die Datenbank geschrieben und gelesen. Es werden weitere Alternativen der Datenhaltung im Cluster vorgestellt und entsprechend typischer Use Cases gegeneinander abgewogen.
Abschließend wird ein in der Praxis bewährtes Architekturmodell für den Einsatz im Cluster vorgestellt.
Montag, 11.12.17 von 09:00 - 17:00 Uhr im Raum Sirius
Vorträge der ORDIX AG
Apache Kudu: Noch eine NoSQL-Datenbank im Hadoop-Zoo? (Frank Heimerzheim, ORDIX AG)
Mit Apache Kudu existiert im Umfeld von Hadoop produktiv seit Herbst 2016 eine NoSQL-Datenbank, die sowohl einen schnellen wahlfreien Zugriff auf einzelne Datensätze als auch einen performanten Zugriff auf Massendaten für Batchverarbeitung ermöglicht. Kudu vereint somit die Vorteile von Formaten wie Parquet im HDFS, die für Batchverarbeitung optimiert sind – mit den Vorteilen einer NoSQL-Datenbank wie HBase, die einen hochperformanten Zugriff auf einzelne Datensätze ermöglicht.
Mit Kudu lassen sich in vielen Fällen komplexe Architekturen mit Einsatz mehrerer Speichertechniken ablösen und durch den Einsatz einer einzigen, allgemein einsetzbaren Datenbank wie Kudu ersetzen.
Im Vortrag werden die Eigenschaften von Kudu vorgestellt. Eingegangen wird auf das verwendete Datenmodell und Möglichkeiten der Partitionierung. Neben der Integration, unter anderem mit Spark, werden Themen wie Security und Architektur diskutiert.
Dienstag, den 12.12.17 um 14:00 - 14:45 Uhr im Raum Stratus 2
Oracle: Compression – Technik und sinnvolle Umsetzung (Klaus Reimers, ORDIX AG)
Das Thema Compression begegnet mir in meinen Projekten immer wieder. Ist es sinnvoll, die Option zu lizenzieren? Habe ich einen Mehrwert, der die Kosten rechtfertigt? Zunächst werde ich die verschiedenen Möglichkeiten der Komprimierung erklären. Anhand vieler Demos zeige ich den technischen Ansatz und erkläre dann auf Basis von Projektergebnissen den sinnvollen Einsatz. Natürlich verdeutliche ich auch, unter welchen Umständen Abstand vom Einsatz dieser Funktionalität genommen werden soll.
Dienstag, den 12.12.17 um 14:00 - 14:45 Uhr im Raum Sirius