Interview mit Markus Ehrenmüller-Jensen

„Die Arbeit mit Daten bringt immer wieder Überraschungen“

Melanie Feldmann

Markus Ehrenmüller-Jensen

Unsere erste Konferenz zum Thema Maschinelles Lernen wird im Dezember in Berlin stattfinden. Wir sprachen mit dem Speaker Markus Ehrenmüller-Jensen, Business Intelligence Architect bei Runtastic, darüber, wie das Unternehmen Maschinelles Lernen in das Tagesgeschäft integriert hat, von den ersten Erfolgen bis zu den überraschenden Ecken und Kanten, auf die sie stießen.

JAXenter: Ihr nutzt für Datenanalysen Microsofts Data Platform und die Programmiersprache R. Wurde R denn schon vor eurem ersten Schritten mit der Microsoft-Plattform bei euch genutzt oder musstet ihr das Wissen komplett neu aufbauen?

Markus Ehrenmüller-Jensen: Wir sind ein Team von Datenleuten. Wir lieben es mit Daten zu arbeiten, Erkenntnis zu gewinnen und anderen helfen dabei zu helfen daraus Aktionen abzuleiten. Einige von ihnen, wie ich, nähern sich dem Thema aus der Perspektive des Data Engineering. Die Sprache R erschien zuerst auf meinem Radar als Revolution Analytics 2015 von Microsoft übernommen wurde und in weiteren Schritten in fast alle Tools der Datenplattform integriert wurde. Obwohl R eine reife Sprache ist, war sie für mich persönlich vor fast drei Jahren noch ganz neu. Ich musste R von Grund auf lernen, indem ich dutzende Bücher las und das Gerlente in meine tägliche Arbeit integrierte. Auf der anderen Seite haben meine Kollegen aus dem Bereich Datentechnik, der meist Statistikern sind, bereits Kenntnisse und Erfahrungen in R mitgebracht. Sie waren sehr glücklich damit, wie einfach wir die Skripte, die sie erstellt haben, in den Data-Warehouse-Prozess einbinden konnten.

JAXenter: Aus Daten wird ja erst Information, wenn man ihnen Sinn und Kontext verpasst. Was waren eure ersten Schritte? Was habt ihr als erstes von den Daten wissen wollen?

Markus Ehrenmüller-Jensen: Runtastics Weg in die Datenanalytik war sehr typisch. In der Anfangszeit wurden für die Erstellung von Berichten direkte Abfragen an die Produktionsdatenbanken genutzt. Später kamen Analysen auf Basis von Tabellenkalkulationen hinzu, um Daten aus verschiedenen Quellen zu kombinieren. Schon bald führten die Tabellen aber zu schmerzhaften Erfahrungen, da die Pflege viel Handarbeit erforderte. Bei der Suche nach einem besseren Visualisierungstool hat sich herausgestellt, dass es besser wäre, ein zentrales Data Warehouse von Grund auf aufzubauen, um eine gemeinsame Basis für die Analytik zu schaffen. Hier kam ich ins Spiel und wurde 2014 von Runtastic eingestellt. Wir konnten schnelle Erfolge erzielen, da wir einerseits bereits vorhandene Berichte und Analysen hatten und andererseits Kollegen, welche die für diese Analysen erforderlichen Daten genauestens kannten. Für die Unternehmensziele wertvolle Erkenntnisse, wie die Anzahl der monatlich aktiven Nutzer, registrierte Benutzer oder Premium-Nutzer, waren die Ausgangspunkte. In der Zwischenzeit haben wir die Analytik ausgeweitet, um von Verhalten unserer Nutzer zu lernen. Durch die Anreicherung all dieser Analysen mit Maschinellem Lernen wurde die Auswertungen für unsere Kollegen noch wertvoller, um Prioritäten für ihre Aktionen abzuleiten.

JAXenter: Auf welche Probleme seid ihr gestoßen?

Die Arbeit mit Daten bringt immer wieder Überraschungen. Das liegt an der schlichten Tatsache, dass Daten nie sehr sauber sind.

Markus Ehrenmüller-Jensen: Die Arbeit mit Daten bringt immer wieder Überraschungen. Das liegt an der schlichten Tatsache, dass Daten nie sehr sauber sind. Man wird immer auf Qualitätsprobleme stoßen. Oft kann man diese entweder auf Bugs in der Anwendung, unpassenden Kontext oder Annahmen zurückführen, die sich später als falsch herausstellen. Die Analyse der Gewohnheiten verschiedener Altersgruppen hat zu großen Überraschung geführt, da eine bestimmte Altersgruppe zu unserer Überraschung überrepräsentiert war. Es stellte sich heraus, dass dies nicht auf das wirkliche Alter unserer Nutzer zurückzuführen war, sondern auf die voreingestellten Werte, die für das Alter verwendet wurden. Manchmal braucht man ein tiefes Verständnis des Geschäfts, um aussagekräftigen Hypothesen zu erstellen. Diese kann man dann mit den Daten auf Plausibilität prüfen, um entweder neue Erkenntnisse zu gewinnen oder Fehler in den Daten zu entdecken.

Lesen Sie auch: Mit Sensordaten und Maschinellem Lernen Bewegungen erkennen

JAXenter: Wie viel Maschinelles Lernen steckt in der Big-Data-Lösung eurem System?

Runtastic hat erst vor kurzem damit begonnen, Methoden des Maschinellen Lernens einzuführen.

Markus Ehrenmüller-Jensen: Runtastic hat erst vor kurzem damit begonnen, Methoden des Maschinellen Lernens einzuführen. Dennoch haben wir bereits einen produktiven Clustering- und Klassifikationsalgorithmus, um Benutzer je nach Aktivitätsgrad verschiedenen Gruppen zuzuordnen. Das hilft uns, gezielte Kampagnen durchzuführen und unterschiedliche Nutzer-Aktivitätsmuster zu identifizieren. Um unseren Kollegen zu helfen, die Leistung unserer Produkte besser zu planen und zu bewerten, haben wir Prognosemodelle implementiert und eingesetzt, welche die täglichen Werte unserer KPIs prognostizieren. Wir nutzen diese Prognosen, um Trends zu erkennen, die Performance von Kampagnen zu bewerten und zukünftige Ziele zu definieren.

JAXenter: Was können die Teilnehmer aus deinem Talk mitnehmen?

Markus Ehrenmüller-Jensen: Teilnehmer erfahren, wie die Integration von R in die Microsoft Data Platform Runtastic dabei geholfen hat, einerseits die Datenqualität zu verbessern und andererseits neue Erkenntnisse zu gewinnen. Ich werde über die verschiedenen Dienste sprechen, die Microsoft anbietet und die wir in der Produktion einsetzen. Und aus welchem Grund wir andere nicht in unsere bestehende Data Warehouse-Architektur aufgenommen haben. Sie können von den Best Practices lernen, die wir entwickelt haben, aus architektonischer Sicht sowie von einigen hilfreichen R-Paketen, die wir verwenden. Leider werde ich nicht alle Datenprodukte, an denen wir derzeit arbeiten, mit anderen teilen können, da einige davon erst im nächsten Jahr auf den Markt kommen werden.

JAXenter: Vielen Dank für das Gespräch.

Markus Ehrenmüller-Jensen arbeitet seit 1994 als Projektleiter, Trainer und Berater für Data Warehousing, ETL und Business Intelligence. Er ist ausgebildeter Softwareingenieur, Diplom-Kaufmann und Professor für Datenbanken und Projekt-Engineering an der HTL Leonding (Fachhochschule) und ist MCSE Data Platform und MCSE Business Intelligence zertifiziert. Seit 2014 ist er für das Data Warehouse von Runtastic verantwortlich, um datengetriebene Entscheidungen für Mitarbeiter und Kunden voranzutreiben. Im Jahr 2013 war er Mitbegründer von SQL PASS Austria und organisiert seit 2014 den SQL Samstage in Wien. Für seine technische Führerschaft in der Community wurde er 2017 als Microsoft Data Platform MVP ausgezeichnet.
Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: