ORDIX® news 1/2017 - Data Mining in der Praxis (Teil I): Was ist Data Mining?
Daten sind das Unternehmenskapital der Zukunft. Wertvoll wird dieses Kapital allerdings erst, wenn es sinnvoll eingesetzt wird. Data Mining ist eine Ansammlung von Prozessen und Methoden, die dazu dienen, Erkenntnisse aus Daten zu ziehen und diese zur Wertschöpfung einzusetzen. Diese neue Artikelserie zum Thema Data Mining gibt mit dem ersten Artikel einen Überblick über das Thema und wird mit anwendungsnahen Beschreibungen einzelner Methoden des Data Mining fortgesetzt.
Wozu dient Data Mining?
Für den, aus dem englischen Sprachraum stammenden, Begriff Data Mining existiert keine etablierte deutsche Übersetzung. Der Begriff „Mustererkennung in Daten" kommt dem mit Data Mining verfolgten unternehmerischen Ziel am nächsten.
Genau darum geht es beim Data Mining: In den immer weiter wachsenden Bergen von Daten in Unternehmen sollen Zusammenhänge entdeckt und aufbereitet werden, so dass ein unternehmerischer Wert aus diesen Informationen generiert werden kann.
War die Fähigkeit hierzu vor einigen Jahren noch ein Merkmal, welches einem Unternehmen einen Wissensvorsprung vor den Mitbewerbern verschafft hat, ist der Einsatz von Techniken aus dem Bereich Data Mining inzwischen eine unternehmerische Notwendigkeit, um keine Wettbewerbsnachteile befürchten zu müssen. Wissen ist zum Kapital geworden. Wertvoll ist dieses Kapital allerdings nur durch die Fähigkeit, es auch gewinnbringend einzusetzen.
Auf Datenschutzaspekte, sonstige gesetzliche Rahmenbedingungen und ethische Fragestellungen wird in diesem Artikel bewusst nicht eingegangen.
In Europa, speziell in Deutschland, sind die Standards und Erwartungen der Kunden bezüglich dieser Aspekte deutlich stärker ausgeprägt als z.B. in den USA. So wichtig diese Fragen auch sein mögen, für das Verständnis, der im Zusammenhang mit Data Mining stehenden Prozesse und Verfahren, sind sie nicht direkt relevant.
Phasen eines Data-Mining-Prozesses
Ein typischer Ablauf zur Erkennung von Mustern in Daten umfasst fünf Schritte:
- Selektion der untersuchten Daten
- Die zu untersuchenden Daten müssen klar definiert werden. Insbesondere bei diesem Schritt gilt es, Datenschutzaspekte zu beachten.
- Datenbereinigung
Unvollständige Datensätze müssen ergänzt oder entfernt werden. - Transformation
Aufbereitung der Daten für den eigentlichen Analyseschritt, z.B. durch Diskretisierung von Werten. - Data Mining
Dies ist der eigentliche Analyseschritt. - Interpretation und Evaluation
Aufbereiten der gefundenen Erkenntnisse und Interpretation durch Experten.
Die Selektion der zu untersuchenden Daten und die Interpretation der Ergebnisse liegen in der Verantwortung der für die Daten verantwortlichen Fachabteilung. Die Schritte der Datenbereinigung und Transformation liegen in vielen Unternehmen in der Verantwortung eines bereits eingesetzten Data Warehouse. Für den Bereich der eigentlichen Analyse wird spezielles Wissen benötigt, das nicht zwingend im Unternehmen vorhanden sein muss. Neben fundierten mathematischen und insbesondere statistischen Kenntnissen, sollten die eingesetzten Fachkräfte auch solide Erfahrung als Programmierer aufweisen.
Aufgaben des Data Mining
- Klassifikation
- Regressionsanalyse
- Assoziationsanalyse
- Ausreißererkennung
- Clusteranalyse
Über diese fünf Bereiche hinaus ist es eine grundsätzliche Aufgabe von Data Mining, aus Daten Zusammenfassungen (Aggregationen) zu erstellen. Die häufig sehr großen Datenmengen werden bezüglich bestimmter Fragestellungen in eine überschaubare Form aufbereitet. Dies kann durch die Berechnung von Kennzahlen, wie zum Beispiel dem Durchschnittsumsatz eines Monats, oder auch durch Visualisierungen, wie zum Beispiel einem Histogramm der Umsätze, erfolgen.
Klassifikation
Daten bezeichnet, wird ein Modell bezüglich einer speziellen Fragestellung entwickelt. Eine solche Fragestellung kann zum Beispiel sein, ob eine Mail als Spam eingestuft werden soll oder nicht. Mithilfe des Modells kann nun für eine neue Mail anhand des Inhalts automatisch ermittelt werden, welcher Kategorie sie zugeordnet werden soll.
In dieser Ausgabe der ORDIX® news befindet sich ein weiterer Artikel zum Thema Klassifikation inklusive Beispielcode zur Umsetzung des präsentierten Beispiels. In den folgenden Ausgaben wird in der Reihe Data Mining insbesondere auf die Regressions- und Clusteranalyse eingegangen.
Regressionsanalyse
Auf Basis von vorhandenen Daten, wie z.B. der Umsatz eines Kunden und seinem Wohnort, wird eine Kennzahl ermittelt. Diese Kennzahl kann zum Beispiel der mit diesem Kunden in Zukunft zu erwartende Umsatz sein. In der Regel sind derartige Beziehungen zwischen einer Anzahl von numerischen Eingangsgrößen und einer numerischen Ausgangsgröße nicht einfach zu ermitteln. Die Regressionsanalyse erstellt aus historischen Daten ein Modell, das genau diese Zusammenhänge beschreibt.
Assoziationsanalyse
In vorhandenen Daten werden Zusammenhänge zwischen verschiedenen Datensätzen untersucht und hieraus Regeln abgeleitet. Ein bekanntes Beispiel ist die Analyse der Kassenbons eines Supermarktes, laut der „Windeln" und „Bier" häufig an einem Samstag zusammen verkauft wurden. Es liegt also nahe, an Wochenenden Paletten mit Bier neben Paletten mit Windeln aufzustellen, um die Umsätze zu steigern. Ein solcher Zusammenhang kann, auch für deutlich komplexere Situationen, anhand der Assoziationsanalyse ermittelt werden.
Ausreißererkennung
Mithilfe von Verfahren zur Analyse von Ausreißern kann aufgrund historischer Daten für jeden neuen Datensatz eine Wahrscheinlichkeit angegeben werden, mit der er ein Ausreißer ist. Ein Ausreißer ist ein Datensatz, der signifikant von anderen gemessenen Daten abweicht. Ein vom Kunden angegebenes Alter von 200 Jahren ist offensichtlich unmöglich und somit falsch. Diese Information kann dazu dienen, solche Datensätze automatisch zu löschen oder zur manuellen Prüfung zu sammeln. Neben dem Ziel der Datenbereinigung können gefundene Ausreißer bei der Betrugsfallerkennung zum Beispiel aufgrund ungewöhnlicher Kontenbewegungen wertvolle Informationen liefern.
Clusteranalyse
Bei der Klassifikation sind Kategorien vorgegeben. Bei der Clusteranalyse ist es Aufgabe des Verfahrens, neue Kategorien zu ermitteln. So können zum Beispiel durch die Analyse von Warenkörben einer Vielzahl von Onlinekunden automatisiert Gruppen von Kunden mit speziellen Interessen ermittelt werden. Diese wiederum lassen sich gezielt mit Werbemaßnahmen ansprechen. Besonders interessant sind hierbei Zusammenhänge, die auch eine Fachabteilung bislang nicht vermutet hat und die gänzlich neue unternehmerische Sichtweisen aufzeigen können.
Fazit
Dieser Artikel gibt einen ersten Überblick über die verschiedenen Aufgaben und damit verbundene Prozesse, die den Begriff Data Mining ausmachen. In jedem Fall werden vorhandene Daten analysiert und aus gefundenen Zusammenhängen Modelle entwickelt, die in der Lage sind, spezielle Fragestellungen zu beantworten.
Auch wenn die meisten eingesetzten Prozesse in vielen Unternehmen bereits vorhanden oder einfach zu etablieren sind, erfordert die Kernkompetenz der analytischen Untersuchung der Daten spezielles Wissen. In weiteren Artikeln in der ORDIX® news wird mit anwendungsnahen Codebeispielen auf Verfahren des Data Mining eingegangen. Gerne stehen Ihnen unsere Experten, sowohl zur Beratung als auch zur Umsetzung zur Verfügung.
Seminare zum Thema
https://seminare.ordix.de/seminare/big-data-und-data-warehouse/big-data
Bildnachweis
© pixabay | dimitrisvetsikas1969 | Working Man Sculptor ...
© freepik.com | Onlyyouqj | Marble platform in front of the city skyline
© freepik.com | @stockvault | Cracked surface
© freepik.com | @kjpargeter | Hydraulic hammer design
Bei Updates im Blog, informieren wir per E-Mail.
Kommentare