Analytische Plattform und Datenarchitektur in der Google Cloud
Als eine weltweit führende Beratung betreibt unser Kunde u.a. analytische Branchenlösungen. Ziel dieses Projekts war eine verallgemeinerte Datenstruktur für eine analytische Branchenlösung inkl. Data Warehouse zu entwickeln und die zugehörigen Datenprozesse (ETL-Prozesse) in der Cloud zu implementieren.
Herausforderung
Die Verfügbarkeit von geschäftskritischen Daten ist für Entscheidungsträger relevanter als jemals zuvor. Um datengetriebene Entscheidungen zu treffen, bedarf es heutzutage jedoch der Fähigkeit große Datenmengen in kurzer Zeit Mitarbeitern, Beratern und C-Level bereitzustellen und diese zu analysieren. Unser Kunde verarbeitete Rohdaten in der Größenordnung von Terabytes und wollte hierfür eine geeignete Big Data Architektur aufbauen. Diese sollte mit einer Vielzahl von Kunden und Beratungsprojekten skalieren können.
Vorgehen
Zunächst wurde anhand von Kundenanforderungen und den verfügbaren Daten eine verallgemeinerte Datenarchitektur für ein Data Warehouse erstellt. Hierzu wurde auf ein Datenmodell gemäß Data Vault 2.0 Methodologie eingesetzt.
Gemäß der Anwendungsfälle wurden die Daten in die Kategorien Gold, Silber und Bronze eingeteilt.
Gold bezeichnet Daten, die einer strengen Qualitätskontrolle im Rahmen des Data Warehouse unterliegen. Diese sollen dem Betrieb von analytischen Plattformen dienen und für die Betrachtung durch Endnutzer geeignet sein.
Silber kategorisiert hingegen Rohdaten, die schon gesäubert und um Daten aus anderen Quellen angereichert wurden. Diese dienen einem schnellen Zugriff durch Beratungsteams und Analysten und sind nur mit Fachwissen um die Daten interpretierbar.
Bronze-Daten sind Rohdaten, die aus Kundensystemen im Data Lake gesammelt werden und ungefiltert Data Scientists zur Verfügung gestellt werden. Diese dienen zur ersten Hypothesenbildung und zur Ausbildung späterer Anwendungsfälle (Gold und Silber).
Im Rahmen des Projekts wurde mittels Apache Airflow und Google Dataflow eine Server-lose (serverless) ETL Pipeline erstellt. Durch die Verwendung einer Skriptsprache für den ETL-Prozess konnte eine weitestgehende Duplizierung des Data Vault Codes vermieden werden (Bridges, Hubs, etc.). Unser Data Vault 2.0 Paket für Airflow erlaubt die Erstellung komplexer Beziehungen zwischen Tabellen nur durch eine Konfiguration des DAGs.
Durch die Verwendung von Google Bigquery als Datawarehouse wurde eine Server-lose Datenbank eingesetzt, welche den administrativen Aufwand minimiert und gleichzeitig außerordentlich schnelle Abfragen auch bei hoher Parallelität erlaubt.
Projektergebnis und Kundennutzen
Die Datenarchitektur wurde nach den Ansprüchen der jeweiligen Stakeholder erfolgreich in der Google Cloud umgesetzt. Es wurde ein ETL Prozess implementiert, der die Rohdaten in das verallgemeinerte Data Vault 2.0 Schema übertrug und Zielgruppen-gerecht an die Data Marts weiterleitet. Dieser ETL Prozess basierte auf Apache Airflow in Kombination mit Google DataFlow und individuellen Datenbankabfragen in SQL.
Die Datenarchitektur wurde, aufgrund der herausragenden Performance, mithilfe von Google BigQuery implementiert. Im Vergleich zu anderen Datenbanklösungen entstanden durch BigQuery keine initialen Lizenz- und Installationskosten für den Kunden.
Mit der von uns umgesetzten Lösung gelingt es dem Kunden nun geschäftskritische Daten in der Größenordnung von Terabyte in wenigen Minuten für die jeweiligen Stakeholder zur Verfügung zu stellen und zu analysieren. Aufgrund der Cloud-nativen Architektur hat der Kunde keine initialen Kosten für Infrastruktur oder Lizenzen investiert und konnte mithilfe eines Pay-As-You-Go Modells Kosten einsparen.
Durch eine enge Zusammenarbeit mit dem Team der Google Cloud konnte eine für den Kunden optimale IT-Architektur geschaffen werden.