Big Data

Linkedin macht Optimierungs-Tool für Hadoop und Spark Open Source

Melanie Feldmann

© Shutterstock / Lara Zanarini

Auch das Business-Netzwerk Linkedin reiht sich in den Reigen der Unternehmen ein, die eigene Tools Open Source stellen. Jetzt mit dabei: Dr. Elephant. Dr. Elephant ist ein Optimierungstool für Daten-Jobs auf Hadoop und Spark, das hauptsächlich aber für Endanwender und nicht nur für Entwickler gedacht ist.

Die Hadoop-Entwickler bei Linkedin halfen End-Usern dabei die Jobs, die sie auf den Hadoop-Clustern laufen ließen, zu verbessern. Denn eine Abfrage so zu gestalten, dass sie möglichst effizient arbeitet, ist nicht einfach, ohne das Innerste des Clusters zu kennen. Außerdem kann schon ein falsche Parameter die komplette Performance zunichtemachen. Doch weil immer mehr Anwender hinzukamen, die Hadoop nutzen, kam das Data-Science-Team bald mit den Anfragen nicht mehr hinterher. Also hieß es, diesen Prozess zu verbessern und standardisieren. Dabei stieß Linkedin auf das Problem, das die meisten Hadoop-Optimierungs-Tools – egal ob Open Source oder proprietär – darauf ausgelegt sind Metriken zu den Systemressourcen zu sammeln und zu überwachen. Nur wenige Tools sind für Endanwender gedacht.

Dr. Elephant hingegen ist genau dafür gemacht. Es unterstützt Hadoop und seine Vielfalt an Frameworks und lässt sich einfach an neue Frameworks anpassen. Und es unterstützt Spark. Das Tool ist dafür gedacht, dass Anwender von Hadoop und Spark auch ihre Abfragen und Visualisierungen wirklich verstehen und hilft diese zu verbessern. Anwender können so viele Heuristiken nutzen, wie sie brauchen.

Lesen Sie auch: Datenvisualisierung: Mehr als Balken und Torten

Dazu bekommt Dr. Elephant in regelmäßigen Abständen eine Liste aller aktuellen erfolgreichen und fehlgeschlagenen Anwendungen vom Ressourcen-Manager YARN. Die Metadaten jeder Applikation – Job Counter, Konfiguration und die Task-Daten – holt es sich vom Job History Server. Wenn es alle Metadaten eingesammelt hat, lässt es verschiedene Heuristiken über die Daten laufen, um zu analysieren wie die einzelnen Heuristiken und der Job als Ganzes gelaufen sind. Diese taggt es dann mit einem von fünf Schweregraden, um auf potenzielle Performanceprobleme aufmerksam zu machen. Letztes Jahr hat Linkedin das Tool auf dem jährlichen Hadoop Summit bereits vorgestellt.

In 80 Prozent der Fälle reiche eine Analyse von Dr. Elephant, um Performanceprobleme zu beseitigen. Sowohl für Entwickler als auch Anwender ist das Tool bei Linkedin obligatorisch. Damit zum Beispiel ein Flow in Produktion laufen darf, braucht er grünes Licht von Dr. Elephant.

Dr. Elephant ist Open Source unter einen Apache-v2-Lizenz. Der Sourcecode findet sich auf GitHub ebenso wie die Dokumentation.

Aufmacherbild: background elephant von Shutterstock / Urheberrecht: Lara Zanarini

Verwandte Themen:

Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: