Big-Data-Visualisierung

Game Changer – Wie Data Science unsere Sicht auf die Welt verändert

Matthias Nagel, Thomas Leitner
©Shutterstock/Raywoo

Manchmal verändert ein einziges Element Dinge von Grund auf. Der Wechsel vom Straddle zum Flop im Hochsprung war so ein Element. Danach brauchte man sich nicht mehr ernsthaft mit dem Straddle um Medaillen zu bemühen. Data Science ist ein solcher Game Changer, wenn es um unseren Umgang mit Daten und Informationen geht. Es wird uns alle verändern.

Die deutsche Sprache hat kein Äquivalent für den Begriff Game Changer. „Die Spielregeln verändernd“ ist inhaltlich falsch, denn das Spiel bleibt unverändert. Die Art, wie es gespielt wird, ist hinterher allerdings eine ganz andere. Game Changer ist ein Begriff mit starken Konnotationen von Unvermeidbarkeit und Unwiderstehlichkeit.

Im Hochsprung war der Flop ein solcher Game Changer. Für den Umgang mit Daten und Informationen ist es Data Science. Dabei ist Data Science wie der Flop kein Element, das unabhängig von äußeren Ereignissen sein Potenzial entwickelt. Beim Hochsprung war es die Einführung weicher Hochsprungmatten an Stelle der zuvor verwendeten Sandgruben. Für Data Science sind es zwei Elemente. Zum einen der Siegeszug von Big Data, Cloud Computing und Breitbandinternet, zum anderen die Möglichkeiten der modernen Datenvisualisierung.

Eine weitere Parallele zwischen diesen beiden Game Changern ist, dass es den richtigen Moment brauchte, damit sie ihre volle Wirkung entfalten konnten. So wie Fritz Pingle zehn Jahre vor Dick Fosbury die Technik nutzte, die schlussendlich unter dessen Namen in die Sportgeschichte einging, gab es Datenwissenschaftler, bevor es Data Scientists gab.

Aufmacherbild: Big data concept words on group of jigsaw puzzle pieces von Shutterstock / Urheberrecht: Raywoo

[ header = Seite 2: Der Hype um Data Science ]

Der Hype um Data Science

Die Google-Suche nach „Data Science“ findet aktuell knapp zwei Millionen Referenzen im Web und die Harvard Business Review bezeichnete Data Science als „sexiest Job des 21. Jahrhunderts“. Erstmals von Peter Naur um 1960 [1] geprägt, wurde der Begriff erst in den letzten zwölf Jahren, dank des Goldrauschs rund um Daten, wirklich populär.

Wer immer auch der Erste war, der die Aussage: „data is the new gold“ formulierte, sie oder er hat damit den Zeitgeist perfekt auf den Punkt gebracht [2]. Im Dezember 2011 griff Neelie Kroes, Vizepräsidentin der EU-Kommission und EU-Kommissarin für die Digitale Agenda, sie auf und formulierte: „So wie Öl als schwarzes Gold bezeichnet wird, gewinnen Daten eine neue Relevanz und eine neue Werthaltigkeit im digitalen Zeitalter. … Um es kurz zu sagen, meine Damen und Herren, meine Botschaft heute ist, dass Daten Gold wert sind.“

Das deckt sich mit dem Versprechen der IT-Industrie, das da lautet, mittels Big Data und Daten aus sozialen Netzen und dem Internet der Dinge Umsatzwachstum und Wettbewerbsvorteile zu generieren. Analytics soll insbesondere im Geschäft mit privaten Endkunden maßgeschneiderte, individuelle Angebote wirtschaftlich machen. Die Zielgruppe ist tot, es lebe die Zielperson. Wenn einem bei dieser Wortwahl ein leichter Schauer des Unwohlseins über den Rücken läuft, kommt das nicht von ungefähr. Der Einstieg in Big Data entbindet Unternehmen nicht von einer sorgfältigen Abwägung der Implikationen bezüglich Persönlichkeitsrechten und Datenschutz.

Gleichzeitig greifen diese plakativ kommunizierten Use Cases aber eigentlich zu kurz. Data Science erschließt Unternehmen und Organisationen Daten, die bislang unzugänglich waren, gerade im Bereich der unstrukturierten Daten. Data Science verändert aber auch radikal den Umgang mit allen Daten, indem es neue Fragestellungen unterstützt und Zusammenhänge aufdeckt, die nicht offensichtlich, teilweise sogar bisher unbekannt, aber signifikant sind. Dazu ist es in der Regel hilfreich, bereits von Anbeginn an Visualisierungstools einzusetzen, damit Erkenntnisse im einfachsten Sinne des Wortes erkannt werden.

Sicherlich eines der unterhaltsamsten Beispiele für einen solchen Erkenntnisgewinn lieferte Hans Rosling, Professor für Internationale Gesundheit an den schwedischen Institutionen för Folkhälsovetenskap des Karolinska Institutet als Referent bei einer TED-Konferenz [3]. In dem Beitrag, der als Video inzwischen mehr als 5,2 Millionen Mal heruntergeladen wurde, zeigt er anhand grafisch aufbereiteter und animierter Daten aus Gesundheitsstatistiken unerwartete Korrelationen, wie die unterschiedliche Abhängigkeit von Säuglingssterblichkeit und Lebenserwartung von Bildung beziehungsweise Durchschnittseinkommen, auf. Und in einem engagierten Vortrag räumt er dann gleich auch noch mit der westlichen, durch Vorurteile und Generalisierungen geprägten Sicht auf die so genannte Dritte Welt auf. Am Ende fällt es schwer, Afrika weiterhin als einen homogenen Kontinent zu betrachten und Sinn in einem „One size fits all“-Ansatz der Entwicklungshilfe zu sehen.

Dabei entsprechen die von Rosling für seinen Vortrag genutzten Daten bei Weitem nicht den Kriterien von Big Data. Weder im Umfang noch in der Komplexität der Datenformate sind die verwendeten statistischen Daten ungewöhnlich. Doch schon aus diesen strukturierten Quellen ist er in der Lage, durch gut gewählte Visualisierung signifikante Erkenntnisse abzuleiten. Wie viel mehr Informationen und Erkenntnisse lassen sich dann erst generieren, wenn alle relevanten Daten, strukturierte wie unstrukturierte, zur Analyse zur Verfügung stehen.

[ header = Seite 3: Bereitschaft zur Veränderung ]

Bereitschaft zur Veränderung

An diesem simplen Beispiel lässt sich zudem etwas viel Grundlegenderes aufzeigen, das mit der Arbeit eines Data Scientist einhergeht. Es geht, setzt man Data Science richtig ein, eigentlich nur noch als Nebenprodukt um bessere Daten zur Entscheidungsfindung. Sie können ohne Frage anfallen oder bewusst generiert werden, aber Data Science ist viel mehr als nur Business Intelligence in Echtzeit und auf alle Daten. Es geht weit über Business Intelligence hinaus, denn diese befasst sich lediglich mit der Darstellung von bekanntem Wissen, also Fragen erster Ordnung. Richtig eingesetzt, beschäftigt sich Data Science mit Fragen zweiter Ordnung.

Während Fragen erster Ordnung sich mit dem Gegenstandsbereich beschäftigen und in der Regel mit „Was“ anfangen, beispielsweise: „Was muss mein Mitarbeiter wissen, um bessere Entscheidungen treffen zu können?“, beschäftigen sich Fragen zweiter Ordnung mit Prozessen, Methoden und Prinzipien und fragen eher: „Wie oder unter welchen Bedingungen können Mitarbeiter bessere Entscheidungen treffen?“

Während die Antwort auf die erste Kategorie von Fragen recht einfach IT-technisch umzusetzen ist, indem Dashboards, Alarme oder der Echtzeitzugriff auf zusätzliche Datenquellen in BI-Lösungen bereitgestellt werden, stellen die Antworten auf Fragen zweiter Ordnung per se die bestehenden Strukturen in Frage.

Heinrich Serwas formuliert es in seinem Buch „Gap Management durch Beirat und Aufsichtsrat“ [4]wie folgt:

„Sie sind oft, wegen ihres fundamentalen Charakters, mit Einstellungen verbunden (Identität des Unternehmens, Notwendigkeit einer bestimmten Unternehmensstrategie, Gerechtigkeitsansprüche, Wert und Unwert von Traditionen …).“

Und damit sind sie nicht einfach technologisch abzuarbeiten. Die Antworten, die Data Science liefert, sind häufig derart, dass sie Entscheidungen der Geschäftsführung oder der Organisationsleitung forcieren. Das kann sowohl interne Strukturen und Prozesse, aber auch grundsätzliches Vorgehen betreffen. Spiegel online brachte kürzlich einen Beitrag unter dem Titel „Marode Gleise: Bahn kämpft mit Mehdorns Billigbauten“ [5]. Es ist davon auszugehen, dass sich die Ingenieure der Bahn durchaus mit Fragen der Haltbarkeit der verwendeten Materialien und des idealen Verhältnisses von Kosten zu Lebensdauer beschäftigt haben. Technisch richtige Antworten stehen aber immer auch in einem Konkurrenzverhältnis zu Organisationszielen und der Firmenstrategie. Um wirken zu können, um die Erkenntnisse auch in wirksame Maßnahmen umsetzen zu können, bedarf es bei der Einführung von Data Science als strategisches Tool der Unternehmensplanung daher einer Top-down-Strategie. Dann sind die Mitarbeiter in der Lage, fundierte Kennzahlen zu liefern, die auch schwierige Entscheidungen rechtfertigen. Die Frage nach Kosten-Nutzen-Verhältnis und ROI für unterschiedliche Verfahren der Fahrbahndeckensanierung dürfte Kämmerer wie Verkehrsminister gleichermaßen interessieren und erlaubt belastbare Argumente langfristiger Investitionsplanung.

Data Science eignet sich aber nicht nur für strategische Kennzahlen. Je kleinteiliger und zeitnäher Fragestellungen seitens der Führungsebene formuliert werden, desto leichter ist es, einen kontinuierlichen Prozess der Unternehmensevaluation in Gang zu setzen, quasi ein IT- und datengestütztes Kaizen [6]. Einen kontinuierlichen Verbesserungsprozess der kleinen Schritte, wie er insbesondere durch Toyota bekannt wurde. Die Aufgabe des Data Scientist besteht dann darin, ständig neue Sichten auf die Relationen unterschiedlicher Parameter zu liefern. Das kann von einfachen Fragen, wie prozentualem Ausschuss in der Produktion in Abhängigkeit von Tages- oder Jahreszeit, bis hin zu komplexen Relationen von Umsatz nach Produktgruppe in Bezug auf regionale Sozialstatistiken reichen. Das exponentielle Wachstum interner wie extern verfügbarer Daten bietet Unternehmen hier gänzlich neue Möglichkeiten, Flaschenhälse und Schwachpunkte zu erkennen und zu beheben.

[ header = Seite 4: Data Scientist – ein Anforderungsprofil ]

Data Scientist – ein Anforderungsprofil

Wie aber sieht das Anforderungsprofil eines Data Scientist aus? Hilary Mason, Chief Data Scientist bei bitly, beschrieb Data Science einmal als Schnittstellenkompetenz. [7] „Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und ‚Hacking‘ (hier: der neugierige, kreative Umgang mit Computern), Design und Algorithmen zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen.“

James Kobielus, IBMs Big-Data-Evangelist, ergänzte diese generische Beschreibung in einem Blogbeitrag um ein eindrucksvolles Curriculum und eine Liste wünschenswerter Kenntnisse und Technologien. Algorithmen und Modellierungstechniken, die ein Data Scientist beherrschen sollte: linear algebra, basic statistics, linear and logistic regression, data mining, predictive modeling, cluster analysis, association rules, market basket analysis, decision trees, time-series analysis, forecasting, machine learning, Bayesian and Monte Carlo Statistics, matrix operations, sampling, text analytics, summarization, classification, primary components analysis, experimental design, unsupervised learning, constrained optimization [8]. Dieses Curriculum enthält die heutigen Anforderungen, zu denen aber ständig neue Methoden und Algorithmen hinzukommen. Zu diesen eher technischen Beschreibungen kommen dann noch zwei Fähigkeiten, die eher in den Bereich der Soft Skills fallen.

Data Scientists brauchen ein ausgeprägtes Talent, komplexe Sachverhalte verständlich zu kommunizieren. Visualisierung, als Tool des Erkenntnisgewinns, eröffnet neue Möglichkeiten, um unbekannte Sachverhalte herzuleiten.

Der Screenshot einer Cross-Selling-Analyse von Arzneimitteln mittels VisualCockpit macht deutlich, wie hilfreich Visualisierungstools beim „Erkennen“ von Zusammenhängen sein können. Cross-Selling-Analysen können dabei von relativ einfachen Formen, wie der Frage zur Nachfrage bei den eigenen Produkten, über das On- und Offlinekaufverhalten von Kunden bis hin zu Fragen nach Markensynergien gehen. Statt einfach nur die eigene kleine Kollektion von Accessoires anzubieten, könnte ein Automobilunternehmen herausfinden, welche Mode, Uhren oder Getränkemarken ihre Kunden bevorzugen, das in Werbung und Verkauf integrieren und die Umsätze mit entsprechenden Tools monitoren. Informationen aus dem Social Media, Kundenforen und dem Kundenservice können hierbei wichtige Frühindikatoren für Trends und Probleme liefern.

Abb. 1: Cross Selling-Analyseam Beispiel von Arzneimitteln © n³ GmbH 2012

Aber nicht immer lohnt sich der Aufwand, Ergebnisse aufwändig für das Publikum aufzubereiten. Der Einsatz von Grafiken wandelt sich in Visual Analytics damit von einer eher schmückenden und ergänzenden Darstellung der finalen Ergebnisse zum Arbeits- und Erkenntnisinstrument. Auch bei der Umsetzung von Maßnahmen ist es wichtig, die den Entscheidungen zugrunde liegenden Fakten allen betroffenen Stake Holdern, von Investoren bis Mitarbeitern, verständlich darzulegen. Nichts ist in diesem Stadium so kontraproduktiv, wie sich hinter wissenschaftlicher Terminologie zu verschanzen.

Zudem sollten Data Scientists ein gesundes Maß an unabhängigem Denken und eine gehörige Portion Neugierde mitbringen. Sie sollten wissen, wann sie an die Grenzen ihrer Tools stoßen und nach anderen Methoden und Algorithmen suchen müssen. Die Kenntnis von Problemen und Use Cases aus anderen Fachgebieten erweist sich dabei, in einer Zeit oftmals hochspezialisiertem Fachwissens, als extrem wichtig. Viele Ansätze, die sich in einem Themenbereich erfolgreiche bewährt haben, lassen sich auch auf andere Gebiete anwenden.

Gerade bei statistischen Verfahren gilt, dass Methoden, die dafür gemacht sind, um von Stichproben auf die Gesamtheit zu schließen, von Big Data womöglich ad absurdum geführt werden. Umgekehrt gilt es, kritisch auf die Datenqualität, deren Herkunft und die Relevanz der Daten für die Fragestellung zu schauen. Arbeitet man besser mit Rohdaten, weil sich bei den aggregierten Werten Fehler eingeschlichen haben? Sind die Daten in sich und in Verbindung mit Daten anderer Datenquellen plausibel? Wie einfach das geschehen kann, zeigt die kürzlich aufgeflammte Diskussion um Fehler bei der Berechnung von Auswirkungen der Verschuldungsgrenze eines Staates auf das Wirtschaftswachstum [9].

Wert von Daten
– Werden die richtigen Daten gesammelt?
– Stehen sie auch zeitnah zur Verfügung?
– Wie leicht kann darauf zugegriffen werden?
– Relevanz der Daten für die Fragestellung

Schließlich besteht das Ziel ja oftmals darin, Dinge zu finden, von denen man noch nicht einmal weiß, dass es sie gibt und dass man sie sucht. Von Jörn Kohlhammer, Head of Competence Center, Fraunhofer Institute for Computer Graphics Research, stammt das Zitat [10]: „But in many data sets, I don’t know what I’m looking for. “10

[ header = Seite 5: First Steps in Data Science  ]

First Steps in Data Science

Um mehr als nur Advanced Business Intelligence im eigenen Unternehmen zu nutzen, muss die Bereitschaft zur Veränderung bestehen, die von der Unternehmensleitung initiiert und getragen wird. Es muss ja nicht gleich ein „Alles oder nichts“-Ansatz verfolgt werden. Die Anwendung von Data Science ähnelt in diesem Punkt den Erfahrungen aus anderen IT-Projekten, zum Beispiel der Implementierung von SOA. Hier haben sich überschaubare Projekte, ausgesuchte Quick Wins, als Referenzen für die weitere Umsetzung des Ansatzes bewährt.

Data Science ist nicht nur ein Thema für Großkonzerne, sondern auch klassische Mittelständler können von einer professionellen Analyse aller unternehmensrelevanten Daten profitieren. Daher ist die Frage nach dem personellen Aufwand nicht allgemeingültig zu beantworten. Wenn die Personalstruktur und der zeitliche Rahmen es erlauben, bietet eine In-House-Lösung natürlich Vorteile bei der Flexibilität und dem über die Zeit akkumulierten Wissen. Andererseits können externe Data Scientists ähnliche Vorzüge aufweisen, wie sie im Bereich klassischer Agenturleistungen üblich sind. Es muss nicht alles Data-Science-Wissen im Unternehmen vorgehalten werden. Erfahrungen aus unternehmensfremden Projekten können genutzt werden und die Personalkosten fallen nur dann an, wenn es auch wirklich ein Projekt gibt. Gerade zu Beginn ist es schwierig, alle benötigten Kompetenzen und Ressourcen schon mit eigenen Mitarbeitern abzudecken. Bei Fachkompetenz in der Kombination Statistik, Modellierung und Programmierung ist die Nachfrage am Arbeitsmarkt höher als das Angebot. Die schrittweise Einführung von Data Science erlaubt es dem verantwortlichen Manager aber auch, zunächst mit externen Data Scientists auf Projektebene zu beginnen, dann den Nutzen dieser Projekte zu bewerten, um den Personalbedarf für die Projekte zu ermitteln und um sukzessive interne Ressourcen aufzubauen.

Eine Voraussetzung, die davon unabhängig vorangetrieben werden sollte, ist die Vernetzung aller Applikationen in Unternehmen und der Aufbau einer Struktur für notwendige Repositories und Auswertungsstrukturen für Big Data. Ein Ansatz besteht darin, einen echten Enterprise Service Bus zu implementieren, der nicht nur in der Lage ist, Daten selbst aus „unwilligen“ Applikationen auszulesen, sondern den anfallenden Nachrichtenstrom sowohl zu speichern als auch gleich regelbasiert auszuwerten. Integrationsplattform wie beispielsweise InterSystems Ensemble bieten eine entsprechende Lösung. Dies hat den Vorteil, dass Auswertungen auf Basis aktueller transaktionaler Daten gemacht werden können und der Umweg über ggf. kosten- und betreuungsintensive Data Warehouses entfällt. Die Daten liegen dann zudem in einer für Visualisierungstools, wie das Visual Cockpit von n³ geeigneten Form vor, um über Visual Analytics Datenanomalien und Flaschenhälse einfacher und schneller auszumachen, als das über eine Suche in schlichten Tabellen oder Spredsheets möglich ist.

Aufeinander abgestimmte Technologien sind für erfolgreiche Data-Science-Projekte eine wichtige Voraussetzung. In Kombination mit dem erforderlichen mathematisch-statistischen Rüstzeug und einer ausgeprägten Portion Neugierde auf Daten können dann Prozesse optimiert, Schwachstellen aufgespürt und neue Möglichkeiten entdeckt werden. Datenvolumen und Verarbeitungsgeschwindigkeit werden auch in Zukunft stetig zunehmen. Statt ein „weiter wie bisher mit besseren Entscheidungshilfen“ ist der Data Scientist so in der Lage, daraus ein „besser als bisher“ zu machen, einen echten Game Changer.

Geschrieben von
Matthias Nagel
Matthias Nagel
Dr. Matthias Nagel ist Diplom-Mathematiker mit einem Fokus auf Statistik und Datenanalyse und Mitgründer sowie CEO der n³ data analysis, software development,consulting GmbH. Als externer Data Scientist und Spezialist für Datenvisualisierung unterstützt n³ Unternehmen unter anderem rund um die ThemenDatenqualität, Auswertung unstrukturierter Daten und Big Data.
Thomas Leitner
Thomas Leitner
Thomas Leitner ist Regional Managing Director Europe Central & North bei InterSystems und in dieser Position in vielen Projekte involviert, die sich mit neuen Methoden der Datenauswertung beschäftigen. Die Bandbreite reicht dabei von Möglichkeiten, die sich durch nationale Patientenakten in Skandinavien ergeben, bis hinzu neuen Business Cases durch Informationen, die in Smart Grids entstehen.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.