Warum braucht man Data-Warehouse-Automation?

Data-Warehouse-Automatisierung (DWA) ist zunächst einmal genau das, wonach es sich anhört: der Prozess der Automatisierung und Rationalisierung von Design, Aufbau, Bereitstellung und Verwaltung von Data-Warehouses. Dazu gehören spezialisierte Automatisierungssoftware und Arbeitsabläufe, die zentrale Datenaufgaben wie Datenintegration, -umwandlung, -bereinigung und -laden übernehmen.

Automatisierung führt zu einer erheblichen Reduzierung manueller Eingriffe während des gesamten Lebenszyklus des Data-Warehouse. Resultate sind eine geringere Fehlerquote, höhere Effizienz der Datenverwaltung und eine konsistente Datenqualität.

DWA vs. traditionelles Daten-Handling per Hand

Warum man DWA überhaupt in Betracht ziehen sollte, hat mit der explosionsartigen Zunahme des Datenvolumens zu tun. Es stellt die traditionellen, meist manuellen Datenverarbeitungsmethoden vor immer größere Probleme. Große Mengen bedeuten immer hohe Komplexität. Geschwindigkeit und Qualität manueller Workflows reichen dafür nicht aus und so steigt die Fehleranfälligkeit. Hinzu kommt, dass es zu wenig spezialisierte Data-Engineers am Markt gibt.

 

Elemente der Data-Warehous-Automatisierung

ETL/ELT: DWA automatisiert den Prozess des Extrahierens, Transformierens und Ladens (ETL). Ohne manuelle Kodierung oder Skripterstellung extrahiert eine Automatisierungsplattform Daten aus verschiedenen Quellen, wandelt sie in ein konsistentes Format um und lädt sie in das Data-Warehouse. Das Gleiche gilt bei umgekehrter Reihenfolge, also ELT, wo dann die Datentransformation im Zieldatawarehouse stattfindet.

Datenmodellierung: Dieser Bereich umfasst die automatische Erstellung von Datenmodellen auf der Grundlage vordefinierter Regeln/Vorlagen sowie ihre Pflege einschließlich Schemadesign, Entitätsbeziehungen und Datenmappings.

Metadatenverwaltung: DWA-Tools enthalten häufig Funktionen zur Verwaltung von Metadaten, die eine Dokumentation und Datenabfolge von Datenquellen, Transformationen und Datenfluss innerhalb des Warehouses ermöglichen.

Workflow-Orchestrierung: Durch Automatisierung lassen sich komplexe Workflows orchestrieren mit dem Zweck, datenbezogene Aufgaben und Prozesse innerhalb der Data-Warehouse-Umgebung zu planen und zu koordinieren.

Low-Code-Programmierung: Beim Aufbau und Betrieb ihres Data-Warehouse verlassen sich Unternehmen jeder Größenordnung bislang auf einen relativ hohen Anteil an manueller Programmierung. Bei bestimmten Problemen wie Kundenfiltern oder komplexen Transformationen dürfte auch immer noch benutzerdefinierter Code vorgezogen werden. Allerdings braucht es weitreichende Python-Kenntnisse, um Daten-Pipelines zu erstellen, Workflows zu automatisieren oder einfache ETL-Prozesse zu formulieren. Ferner fundiertes SQL-Coding-Wissen, um ein Data-Warehouse tatsächlich zu verstehen und damit zu arbeiten.

SQL-Skripte für die Warehouse-Programmierung umfassen oft Hunderte von Codezeilen. Daran arbeiten mehrere Fachkräfte, jede mit ihrem eigenen Stil. Und die einzelnen Data-Warehouse-Plattformen am Markt haben zudem noch unterschiedliche SQL-Dialekte. Dahinter stecken also hoher Zeitaufwand und Fehleranfälligkeit.

Deshalb stellen Automatisierungsplattformen heute Low-Code-Ansätze für den Aufbau und Betrieb eines Cloud-Data-Warehouse bereit. In den meisten Standardsituationen dürfte Low-Code der herkömmlichen Programmierung inzwischen überlegen sein. Es wird dadurch möglich, in einer dynamischen Umgebung mit unterschiedlichen Qualifikationsniveaus mit vorgefertigten Komponenten zu entwickeln. Anstatt stundenlang Code zu schreiben/zu korrigieren, klickt man sich in wenigen Minuten zu einem Data-Warehouse-Prototyp. So bleibt mehr Zeit für strategische Designentscheidungen und Überlegungen zur grundsätzlichen Definition und Implementierung der richtigen Geschäftslogik.

Low-Code bringt außerdem Business und IT näher zusammen. Aufgrund der Abstraktionsebene können beide in derselben Sprache kommunizieren und sich gemeinsam auf die Entwicklung konzentrieren –, anders, als wenn man sich gemeinsam über 100 Zeilen Python-Code hermachen muss.

 

Vorteile: mehr Zeit für Datenanalysen, Skalierbarkeit, konsistente Daten…

Unternehmen, die mit großen Datenmengen arbeiten, stehen vor zwei grundlegenden Herausforderungen:

  1. Wie lässt sich die zunehmende Komplexität bei der Datenintegration, -transformation und anderen wichtigen Datenverwaltungsprozessen bewältigen?
  2. Wie können Geschwindigkeit und Qualität der Daten durch schlankere Workflows erhöht und gleichzeitig Kosten für den Datenbetrieb in Grenzen gehalten werden?

Insbesondere bei zahlreichen Quelldatensystemen und Vorhandensein eines leistungsfähigen Enterprise-Data-Warehouse lassen sich diese Herausforderungen durch Automatisierung bewältigen.

Weniger manuelle Eingriffe schaffen zunächst Raum für schlankere Datenprozesse. Das bedeutet eine schnellere Wertschöpfung in jeder Phase des Data-Warehouse-Lebenszyklus und mehr Zeit für Datenanalysen. Automatisierung minimiert außerdem menschliche Fehler und erhöht die Konsistenz und Genauigkeit der Daten – auch bei wachsendem Datenvolumen und zunehmender Komplexität. Die Datenverarbeitung wird damit  skalierbar nach oben und erlaubt es dem Unternehmen, auf neue Geschäftsanforderungen zu reagieren.

…Kosteneinsparungen, Compliance und Governance

Automatisierung verringert die Abhängigkeit von manueller Arbeit und unterstützt bei der Kostenkontrolle der betrieblichen Datenverwaltung. Hochbezahlte Fachkräfte entlastet sie von Routineaufgaben im Bereich der Datenverarbeitung. Funktionen wie Metadatenmanagement oder Nachverfolgung der Datenabfolge) unterstützen bei der Einhaltung gesetzlicher Vorschriften und gewährleisten Data-Governance, indem sie eine umfassende Dokumentation der Datenprozesse liefern. DWA-Tools verfügen heute in der Regel über intuitive Schnittstellen und Selbstbedienungsfunktionen, die es auch technisch weniger Versierten ermöglichen, datenbezogene Aufgaben auszuführen.

Von Christoph Papenfuss, Area VP Dach bei Agile Data Engine

Christoph Papenfuss, Area VP Dach bei Agile Data Engine

Christoph Papenfuss ist verantwortlich für den Geschäftsaufbau am deutschsprachigen Markt des finnischen Datenspezialisten Agile Data Engine. Der Spezialist für Data-Analytics hat als Unternehmensberater im Silicon-Valley-Büro von KPMG mit Unternehmen wie Apple, Electronic Arts und Daimler an Datenprojekten gearbeitet und bekleidete später Führungspositionen bei Analytikunternehmen wie Cognos, OSIsoft und Msg Global. www.agiledataengine.com