ORDIX® news 1/2017 - Data Mining in der Praxis (Teil I): Was ist Data Mining?

Daten sind das Unternehmenskapital der Zukunft. Wertvoll wird dieses Kapital allerdings erst, wenn es sinnvoll eingesetzt wird. Data Mining ist eine Ansammlung von Prozessen und Methoden, die dazu dienen, Erkenntnisse aus Daten zu ziehen und diese zur Wert­schöpfung einzusetzen. Diese neue Artikelserie zum Thema Data Mining gibt mit dem ersten Artikel einen Überblick über das Thema und wird mit anwendungsnahen Beschreibungen einzelner Methoden des Data Mining fortgesetzt.

Wozu dient Data Mining?

Für den, aus dem englischen Sprachraum stammenden, Begriff Data Mining existiert keine etablierte deutsche Übersetzung. Der Begriff „Mustererkennung in Daten" kommt dem mit Data Mining verfolgten unternehmerischen Ziel am nächsten. 

Genau darum geht es beim Data Mining: In den immer weiter wachsenden Bergen von Daten in Unternehmen sollen Zusammenhänge entdeckt und aufbereitet werden, so dass ein unternehmerischer Wert aus diesen Informa­tionen generiert werden kann. 

War die Fähigkeit hierzu vor einigen Jahren noch ein Merkmal, welches einem Unternehmen einen Wissensvorsprung vor den Mitbewerbern verschafft hat, ist der Einsatz von Techniken aus dem Bereich Data Mining inzwischen eine unternehmerische Notwendigkeit, um keine Wett­bewerbsnachteile befürchten zu müssen. Wissen ist zum Kapital geworden. Wertvoll ist dieses Kapital allerdings nur durch die Fähigkeit, es auch gewinnbringend einzusetzen. 

Auf Datenschutzaspekte, sonstige gesetzliche Rahmenbedingungen und ethische Fragestellungen wird in diesem Artikel bewusst nicht eingegangen. 

In Europa, speziell in Deutschland, sind die Standards und Erwartungen der Kunden bezüglich dieser Aspekte deutlich stärker ausgeprägt als z.B. in den USA. So wichtig diese Fragen auch sein mögen, für das Verständnis, der im Zusammenhang mit Data Mining stehenden Prozesse und Verfahren, sind sie nicht direkt relevant.

Phasen eines Data-Mining-Prozesses

Ein typischer Ablauf zur Erkennung von Mustern in Daten umfasst fünf Schritte:

  • Selektion der untersuchten Daten
  • Die zu untersuchenden Daten müssen klar definiert werden. Insbesondere bei diesem Schritt gilt es, Daten­schutzaspekte zu beachten. 
  • Datenbereinigung
    Unvollständige Datensätze müssen ergänzt oder entfernt werden. 
  • Transformation
    Aufbereitung der Daten für den eigentlichen Analyseschritt, z.B. durch Diskretisierung von Werten. 
  • Data Mining
    Dies ist der eigentliche Analyseschritt. 
  • Interpretation und Evaluation
    Aufbereiten der gefundenen Erkenntnisse und Interpretation durch Experten.

Die Selektion der zu untersuchenden Daten und die Interpretation der Ergebnisse liegen in der Verantwortung der für die Daten verantwortlichen Fachabteilung. Die Schritte der Datenbereinigung und Transformation liegen in vielen Unternehmen in der Verantwortung eines bereits eingesetzten Data Warehouse. Für den Bereich der eigent­lichen Analyse wird spezielles Wissen benötigt, das nicht zwingend im Unternehmen vorhanden sein muss. Neben fundierten mathematischen und insbesondere statistischen Kenntnissen, sollten die eingesetzten Fachkräfte auch solide Erfahrung als Programmierer aufweisen.

Aufgaben des Data Mining

Die möglichen Fragestellungen, die mithilfe von Data Mining beantwortet werden sollen, lassen sich grob in fünf Be­reiche aufteilen:

  • Klassifikation 
  • Regressionsanalyse 
  • Assoziationsanalyse 
  • Ausreißererkennung 
  • Clusteranalyse 

Über diese fünf Bereiche hinaus ist es eine grundsätzliche Aufgabe von Data Mining, aus Daten Zusammen­fassungen (Aggregationen) zu erstellen. Die häufig sehr großen Datenmengen werden bezüglich bestimmter Frage­stellungen in eine überschaubare Form aufbereitet. Dies kann durch die Berechnung von Kennzahlen, wie zum Beispiel dem Durchschnittsumsatz eines Monats, oder auch durch Visualisierungen, wie zum Beispiel einem Histogramm der Umsätze, erfolgen.

Klassifikation

Daten bezeichnet, wird ein Modell bezüglich einer speziellen Fragestellung entwickelt. Eine solche Fragestellung kann zum Beispiel sein, ob eine Mail als Spam eingestuft werden soll oder nicht. Mithilfe des Modells kann nun für eine neue Mail anhand des Inhalts automatisch ermittelt werden, welcher Kategorie sie zugeordnet werden soll. 

In dieser Ausgabe der ORDIX® news befindet sich ein weiterer Artikel zum Thema Klassifikation inklusive Beispielcode zur Umsetzung des präsentierten Beispiels. In den folgenden Ausgaben wird in der Reihe Data Mining insbesondere auf die Regressions- und Clusteranalyse eingegangen.

Regressionsanalyse

Auf Basis von vorhandenen Daten, wie z.B. der Umsatz eines Kunden und seinem Wohnort, wird eine Kennzahl ermittelt. Diese Kennzahl kann zum Beispiel der mit diesem Kunden in Zukunft zu erwartende Umsatz sein. In der Regel sind derartige Beziehungen zwischen einer Anzahl von numerischen Eingangsgrößen und einer numerischen Ausgangsgröße nicht einfach zu ermitteln. Die Regressionsanalyse erstellt aus historischen Daten ein Modell, das genau diese Zusammenhänge beschreibt.

Assoziationsanalyse

In vorhandenen Daten werden Zusammenhänge zwischen verschiedenen Datensätzen untersucht und hieraus Regeln abgeleitet. Ein bekanntes Beispiel ist die Analyse der Kassenbons eines Supermarktes, laut der „Windeln" und „Bier" häufig an einem Samstag zusammen verkauft wurden. Es liegt also nahe, an Wochenenden Paletten mit Bier neben Paletten mit Windeln aufzustellen, um die Umsätze zu steigern. Ein solcher Zusammenhang kann, auch für deutlich komplexere Situationen, anhand der Assoziationsanalyse ermittelt werden.

Ausreißererkennung

Mithilfe von Verfahren zur Analyse von Ausreißern kann aufgrund historischer Daten für jeden neuen Datensatz eine Wahrscheinlichkeit angegeben werden, mit der er ein Ausreißer ist. Ein Ausreißer ist ein Datensatz, der signi­fikant von anderen gemessenen Daten abweicht. Ein vom Kunden angegebenes Alter von 200 Jahren ist offensichtlich unmöglich und somit falsch. Diese Information kann dazu dienen, solche Datensätze automatisch zu löschen oder zur manuellen Prüfung zu sammeln. Neben dem Ziel der Datenbereinigung können gefundene Ausreißer bei der Betrugsfallerkennung zum Beispiel aufgrund ungewöhn­licher Kontenbewegungen wertvolle Informationen liefern.

Clusteranalyse

Bei der Klassifikation sind Kategorien vorgegeben. Bei der Clusteranalyse ist es Aufgabe des Verfahrens, neue Kategorien zu ermitteln. So können zum Beispiel durch die Analyse von Warenkörben einer Vielzahl von Online­kunden automatisiert Gruppen von Kunden mit speziellen Interessen ermittelt werden. Diese wiederum lassen sich gezielt mit Werbemaßnahmen ansprechen. Besonders interessant sind hierbei Zusammenhänge, die auch eine Fach­abteilung bislang nicht vermutet hat und die gänzlich neue unternehmerische Sichtweisen aufzeigen können.

Fazit

Dieser Artikel gibt einen ersten Überblick über die verschiedenen Aufgaben und damit verbundene Prozesse, die den Begriff Data Mining ausmachen. In jedem Fall werden vorhandene Daten analysiert und aus gefundenen Zu­sammenhängen Modelle entwickelt, die in der Lage sind, spezielle Fragestellungen zu beantworten.

Auch wenn die meisten eingesetzten Prozesse in vielen Unternehmen bereits vorhanden oder einfach zu etablieren sind, erfordert die Kernkompetenz der analytischen Untersuchung der Daten spezielles Wissen. In weiteren Artikeln in der ORDIX® news wird mit anwendungsnahen Codebeispielen auf Verfahren des Data Mining eingegangen. Gerne stehen Ihnen unsere Experten, sowohl zur Beratung als auch zur Umsetzung zur Verfügung.

Seminare zum Thema

[1] Big Data: Informationen neu gelebt | Apache Hadoop Grundlagen
https://seminare.ordix.de/seminare/big-data-und-data-warehouse/big-data

Bildnachweis

© pixabay | dimitrisvetsikas1969 | Working Man Sculptor ...
© freepik.com | Onlyyouqj | Marble platform in front of the city skyline
© freepik.com | @stockvault | Cracked surface
© freepik.com | @kjpargeter | Hydraulic hammer design

Frank Heimerzheim (Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!)
1
DOAG Regionaltreffen in Paderborn – Oracle Backup
Data-Access-Objekte (DAO) - BEST-P: Find-By-Exampl...

Related Posts

Kommentare

 
Keine Kommentare vorhanden
Bereits registriert? Login
Gäste
Dienstag, 22. August 2017
Wenn Sie sich automatisch registrieren möchten, füllen Sie bitte die Felder Benutzername, Name und E-Mail.
Füllen Sie bitte die Felder Name und E-Mail, wenn Sie sich nicht registrieren möchten.

Sicherheitscode (Captcha)

Unsere Autoren

Technologie Blogs

Tutorials

4 members

Webentwicklung

3 members

Java

3 members

Archiv | Blog-Beiträge

Login