Einführung einer Analytics Plattform für eine Managementberatung

Unser Kunde, eine weltweit tätige Managementberatung, wollte für den effizienten Einsatz von Data Scientists in Beratungsteams eine Datenplattform anschaffen. niologic realisierte für die Branchenspezialisten der Beratung eine Analytics und Data Science Plattform.

Herausforderung

Die Beratungsprojekte des Kunden zeichnen sich durch eine kurze Onboardingphase und schnelle Ergebnisse aus. Der Kunde brauchte deshalb eine Analytics Plattform, die mit den heutigen Datenmengen umgehen kann und gleichzeitig eine Bedienung (Self-Service) durch Analysten und Data Scientists erlaubt.

Vorgehen

niologic erstellte zusammen mit dem Kunden eine initiale Anforderungsliste. Es sollten sowohl Map&Reduce-Verfahren für das Data Cleansing möglich sein, als auch performante InMemory-Analysen gepaart mit der Ausführung von Algorithmen in R und Python.

Nach Vergleich mehrerer Cloud-agnostischer Analytics-Lösungen fiel die Wahl auf die Plattform des Anbieters Dataiku. niologic qualifizierte und führte die Analytics Plattform Data Science Studio (DSS) für den Kunden ein. Dataiku übernahm das Software-Training des Kunden.

Bei der Zusammenstellung der Plattform setzte niologic auf eine Kombination aus Apache Spark 2.x (Google Dataproc) und InMemory-Analytics auf Basis von Google Bigquery für das Data Warehousing. Die Software-Suite Dataiku wurde auf einem Kubernetes-Cluster installiert, wobei niologic mehrere Docker-Images erstellte und ein Custom-Logging der Datajobs basierend auf fluentd und Google Stackdriver erstellte. Der angeschlossene auf Google Cloud Storage basierende Data Lake sorgt für eine Skalierbarkeit in der Datenverarbeitung.

Projektergebnis und Kundennutzen

Die Mitarbeiter des Kunden konnten innerhalb weniger Tage Big Data Analysen durchführen, die in ihrer einfachen Bedienbarkeit an eine Tabellenkalkulation erinnerten. Gleichzeitig erfuhren die Mitarbeiter durch das angepasste Logging und Alerting der Multiplikatoren weitere Unterstützung. Hier zeigte sich die Stärke des Custom-Logging basierend auf fluentd und Google Stackdriver.

Durch eine weitere Umstellung der Datenformate auf spaltenbasierte und komprimierende Formate konnte die Performance von Spark InMemory Processing um den Faktor 100 gesteigert werden. Die Multimandatenfähigkeit des Systems wurde u.a. durch die horizontale Skalierung und die Optimierung der Spark-Konfiguration erreicht. Gleichzeitig konnten Dataiku wichtige Ideen für eine weitere Optimierung der Software angeboten werden, so dass heute z.B. Kubernetes optimal von Dataiku unterstützt wird.

Der Kunde fand somit sowohl eine technisch stabile Plattform als auch eine agile und den Beratungsprozessen angepasste Lösung vor. Die Berater können innerhalb kurzer Zeit Kundendaten verarbeiten und durch eigene Uploads mit weiteren Daten verschneiden (Big Data Enablement).

Durch die enge Zusammenarbeit mit der IT-Sicherheit des Kunden konnten zahlreiche Sicherheitsmaßnahmen getroffen werden, die die Datensicherheit und die Zugänglichkeit der Systeme regeln.