3 Minuten Lesezeit (599 Worte)

Unsere Daten ziehen ordentlich ein...

ETL

Die Datenquellen in Unternehmen können sehr unterschiedlich sein. Um die Daten geordnet in ein Data Warehouse einzuspielen, müssen für jedes Unternehmen individuelle Voraussetzungen geschaffen werden. Wir geben hier einen kurzen Überblick über „IBM DataStage" und stellen unsere Beratungsleistung in Verbindung mit dem IBM-Produkt vor.

Die Abkürzung ETL setzt sich zusammen aus dem jeweils ersten Buchstaben der drei Komponenten eines Datenbeschaffungsprozesses:

Extract  Relevante Daten aus verschiedenen Quellen extrahieren.

Transform Daten verarbeiten, Anpassung an das Zielsystem (Datenbank)

Load Einspielung der Daten in das Zielsystem (Datenbank).

Ein ETL-Prozess kommt immer dann zum Einsatz, wenn Daten aus einem oder mehreren operativen Systemen konsolidiert und in ein Data Warehose eingespielt werden müssen. Damit soll einer redundanten Datenhaltung beim Import der Daten vorgebeugt und die Verwendung der Daten zu beispielsweise Auswertungszwecken vereinfacht werden.

Vorwiegend wird ein ETL-Prozess zu einem lastenarmen Zeitpunkt angestoßen oder sobald die Daten im Quellsystem konsistent vorliegen (zum Beispiel nach einem Tagesabschluss). Der Prozess muss aber innerhalb eines bestimmten Zeitfensters beendet sein. Diese Anforderung stellt eine große Herausforderung an die Effizienz und Ablaufsteuerung des Prozesses dar. Bei dieser Aufgabenstellung kommen wir meistens nicht ohne ein ETL-Werkzeug aus. Ein einfaches ETL-Beispiel mittels DataStage:

Abb. 1: Einfaches DataStage Beispiel (Extract-transform-load data).

Grundlagen IBM DataStage

DataStage ist eines der führenden ETL­Produkte im DWH-Bereich. Dieses Werkzeug unterstützt die Erfassung, Integration und Konvertierung großer Datenmengen mit einfachen und komplexen Datenstrukturen aus heterogenen Datenquellen. Anhand einer Palette von visuellen Komponenten können Data Marts und Data Warehouses schnell und einfach erstellt bzw. gewartet werden: 

Abb. 2: ETL-Prozess.
DataStage handelt nach dem Prinzip „What you see, is what you get". Durch Links werden Stages zu einer logischen Verarbeitungskette verknüpft. Dabei hat jede Stage bestimmte Eigenschaften:
Abb. 3: WYSISYG - Erstellung einer logischen Vearbeitungskette.
Abb. 4: WYSISWG - Beispiel einer Transformation und Filterung.
Eine gemeinsame Nutzung von Job-­Komponenten und Metadaten erhöhen zudem die Wiederverwendbarkeit und somit auch die Produktivität. Die Administration der Software erfolgt an zentraler Stelle durch Überwachungs- und Statistik-Tools, wodurch eine gute Kontrolle der Jobs gewährleistet wird. 

Bewertung  

Extract, Transform and Load – Unter den führenden Herstellern von ETL- Entwicklungsumgebungen stellt IBM das Produkt DataStage zur Verfügung. Sie nutzen DataStage bereits in Ihrem Unternehmen oder wollen es jetzt neu einsetzen? 

Wir bieten Ihnen folgende Beratungsleistungen an:

  • Maßgeschneiderte Prozesslösungen
  • Analyse und Optimierung bestehender Prozesse
  • Überprüfung bestehender Entwicklungen und der Architektur
  • Individualisierung ihrer Anforderungen
  • Performance-Analyse
  • Beratung beim Einsatz neuer Features

Realisierung

Die Entwicklung mit DataStage setzt fundierte Kenntnisse in der Server- und Enterprise- Entwicklung voraus, um die Umsetzung so effizient wie möglich durchzuführen. Wir helfen Ihnen bei der Umsetzung und realisieren so eine maßgeschneiderte Lösung für Ihr Unternehmen.

Wir realisieren die Umsetzung nach folgenden Merkmalen:

  • Anforderungsanalyse
  • Bewährtes Vorgehensmodell bei der Implementierung
  • Entwicklung performanter Prozesse
  • Standardisiertes Testmanagement
  • Aussagekräftige und vollständige Dokumentation
  • Einweisung und Schulung Ihrer Mitarbeiter

Betrieb 

Die Betreuung und Wartung Ihrer Lösungen ist ein wichtiger Punkt, um Prozesse effektiv zu gestalten. Des Weiteren müssen Neuerungen und Erweiterungen in das laufende System eingebracht werden.

Wir bieten Ihnen hier folgende Leistungen an: 

  • Maßgeschneiderter Support nach Ihren Bedürfnissen
  • Überwachung der Prozesse
  • Übernahme aller DataStage-Prozesse in den Betrieb
  • Betreuung der DataStage-Prozesse im Betrieb

Fazit

IBM DataStage ist ein sehr mächtiges ETL-Produkt und bietet eine Vielzahl an Optimierungspotential.

Sie haben eine komplexe Systemlandschaft und planen ein Data Warehouse neu aufzubauen oder ein bestehendes mittels ETL-Prozessen zu optimieren? Sprechen Sie uns an, gerne unterstützen wir mit unserer langjährigen Erfahrung im Umfeld ETL und DataStage.

Principal Projektmanager bei ORDIX.

 

Kommentare

Derzeit gibt es keine Kommentare. Schreibe den ersten Kommentar!
Freitag, 26. April 2024

Sicherheitscode (Captcha)

×
Informiert bleiben!

Bei Updates im Blog, informieren wir per E-Mail.

Weitere Artikel in der Kategorie