Einblicke in die Datenwissenschaften

Data Science Survey 2018: Everybody’s Python!

Katharina Degenmann

© Shutterstock / Sammby

JetBrains hat seinen „Data Science Survey 2018“ veröffentlicht und rund 1600 Datenwissenschaftler zu den Bereichen Datenanalyse, Machine Learning, Tools und Technologien befragt. Wie die Ergebnisse zeigen, ist Python sowohl bei Datenanalysten als auch bei Ingenieuren die beliebteste Programmiersprache.

Um herauszufinden, wie es aktuell um die Welt der Datenwissenschaft bestellt ist, hat JetBrains über 1600 Datenwissenschaftler weltweit befragt. Entwickler aus den USA, Europa, Japan und China gewährten durch ihre Antworten Einblicke in die Datenwissenschaft als Industriezweig und als Hobby, in mögliche Tätigkeitsbereiche, sowie beliebte Programmiersprachen und Tools.

Relevante Tätigkeitsfelder

Es gibt mindestens zwei Gründe, um Datenwissenschaften zu betreiben. Zum einen, um Geld zu verdienen, zum anderen, weil es ein Hobby ist. In diese zwei Gruppen hat auch JetBrains die Umfrage-Teilnehmer aufgeteilt, da sich dadurch auch das Aktivitätsfeld ändert. Beispielsweise seien für professionelle Datenanalysten hauptsächlich Bereiche wie Datenverarbeitung und grundlegende Statistiken wichtig, während Hobby-Datenanalysten meist Datenvisualisierung gegenüber grundlegenden Statistiken bevorzugen.

77 Prozent der professionellen Datenanalysten arbeitet in der Datenverarbeitung. 70 Prozent sind in der Datenvisualisierung tätig, gefolgt von grundlegenden Statistiken.

Bei den Hobby-Datenanalysten zeigen sich ähnliche Ergebnisse, allerdings mit weniger Prozent. 65 Prozent arbeiten mit Datenverarbeitung, 56 Prozent mit Datenvisualisierung und die Hälfte der Befragten nutzt grundlegende Statistiken.

Modeldesign belegt dagegen die hinteren Plätz und scheint daher für Datenwissenschaftler wohl weniger interessant zu sein.

Programmiersprachen

Insgesamt 1522 gültige Antworten gab es zu „Programmiersprachen für die Datenanalyse“. Platz eins bzw. 57 Prozent gingen an Python. Auf Platz zwei und drei, folgen R (15 Prozent) und Java (14 Prozent). Matlab / Octave (3 Prozent) und Scala (2 Prozent) werden von den Datenanalysten weniger genutzt. Allerdings verwenden sieben Prozent der Teilnehmer eine andere Programmiersprache, als die hier aufgeführten.

Wie der Survey außerdem zeigt, sind die Befragten mit ihrer aktuellen Programmiersprache, bei den Meisten wird das Python sein, zufrieden. Schließlich wollen über die Hälfte (51 Prozent) zukünftig keine andere Programmiersprache nutzen oder migrieren. 15 Prozent der Datenwissenschaftler planen in den nächsten 12 Monaten auf C++ umzustellen oder zu migrieren und 13 Prozent auf Go. Weitere 7 Prozent möchten in den kommenden 12 Monaten auf Kotlin umsteigen.

Bezüglich kommender Programmiersprachen-Trends haben die Datenwissenschaftler eine klare Meinung. Nach Ansicht der Befragten wird Python in den nächsten 5 Jahren an der Spitze der Programmiersprachen bleiben.

Tools and Technologien

Eine weitere Kategorie befasste sich mit den Bereichen Tools und Technologien. Von den 1666 Befragten nutzen 41 Prozent, und damit die größte Gruppe, kein Tool. Allerdings verwenden 19 Prozent der Datenwissenschaftler Microsoft Azure ML.

Und auch in Sachen Deep Learning Bibliotheken hat JetBrains insgesamt 1666 Antworten erhalten. Die am meisten genutzten Deep Learning Bibliothek ist TensorFlow.

Auch IDEs und Editors werden von Datenanalysten verwendet. Das am meist genutzte Code-Editor ist Jupyter/ IPython Notebook (43 Prozent), gefolgt von PyCharm (38 Prozent) und RStudio (26 Prozent). Das Schlusslicht bildet Rodeo, mit lediglich einem Prozent. In Sachen Betriebssystem setzt die Mehrheit auf Windows (62 Prozent), noch vor Linux (44 Prozent) und macOS (37 Prozent).

Weitere Ergebnisse

Eine besonders interessante Antwort gab es auf die Frage für welche Branche die Daten in erster Linie analysiert werden. 56 Prozent der Befragten analysieren die Daten nicht für die IT-Branche, 44 Prozent allerdings schon.

Die Teilnehmer der Studie, die in der IT-Branche arbeiten, analysieren die Daten in erster Linie für Big Data (39 Prozent). Aber auch für E-learning (23 Prozent) und Cybersecurity (18 Prozent) analysieren die Datenwissenschaftler. Apropos Big Data, hier sind Apache Spark (13 Prozent), Apache Hadoop (12 Prozent) und Apache Hive (5 Prozent) die drei wichtigsten Tools für Datenwissenschaftler.

Außerdem verwenden 78 Prozent der Befragten ihre lokalen Computer, um Berechnungen durchzuführen. Und ganz zum Schluss, AWS ist der beliebteste Cloud-Service-Provider unter den Datenwissenschaftlern.

Das vollständige Data Science Survey 2018 ist online abrufbar.

Geschrieben von
Katharina Degenmann
Katharina Degenmann
Katharina Degenmann hat Politikwissenschaft und Philosophie studiert. Seit Februar 2018 arbeitet sie in der Redaktion der Software & Support Media GmbH und ist nebenbei als freie Journalistin tätig.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: