Suche
Interview mit Shay Banon, Gründer und CEO von Elastic, Entwickler von Elasticsearch, zu Machine Learning und Cloud Computing

Machine Learning in Elasticsearch: Auf der Suche nach Zeitreihen-Anomalien

Dominik Mohilo

Shay Banon

Das Maschinelle Lernen hält immer mehr Einzug in die Welt der IT. Schon seit geraumer Zeit werden die Ergebnisse der milliardenfachen Suchen bei Google durch Machine Learning verbessert. Wir haben uns mit Shay Banon, CEO von Elastic und Erfinder von Elasticsearch, über Maschinelles Lernen, die wichtigsten Meilensteine von Elasticsearch und den Impact von Machine Learning auf Suchmaschinen unterhalten.

JAXenter: Als CEO von Elastic und Entwickler von Elasticsearch waren Sie von Anfang an dabei. Was waren die wichtigsten Meilensteine von Elasticsearch seit der Ersteinführung im Jahr 2010?

Shay Banon: Als ich Elasticsearch ursprünglich entwickelt habe, hatte ich ein Hauptziel vor Augen. Ich wollte, dass Entwickler Elasticsearch ganz einfach in wenigen Millisekunden auf ihrem Laptop starten, herunterladen und installieren können. Dass sie Daten hochladen und schnelle Ergebnisse erzielen können. Heute verzeichnen wir mehr als 130 Millionen Software-Downloads und unsere Community ist auf mehr als 100.000 Entwickler in 100 Ländern gewachsen.

Es gab viele verschiedene Meilensteine bei Elasticsearch, aber ich erläutere gern einige Unternehmensmeilensteine, die uns zu dem gemacht haben, was wir heute sind. Zu Beginn des Jahres 2013 haben sich Kibana und Logstash mit Elasticsearch zusammengetan, um die de facto Open-Source Logging-Lösung zu entwickeln. Ich habe Search ja auch entwickelt, weil ich von den bestehenden Tools frustriert war. Genauso ging es auch den Entwicklern dieser Produkte, Rashid Kahn und Jordan Sissel. Sie waren unzufrieden mit den handelsüblichen Produkten, die ihnen dabei helfen sollten, ihre Jobs als System- und Netzwerkadministratoren zu erledigen.

Elasticsearch wurde entwickelt, um die Macht der Datenexploration auf die Benutzer zu übertragen.

Ein paar Jahre später, im Jahr 2015, haben wir den Unternehmensnamen von Elasticsearch zu Elastic geändert, weil wir zu einem Multi-Produkt-Unternehmen mit Anwendungsfällen herangewachsen sind, die über die Suche hinausgehen. Im gleichen Jahr haben wir ein norwegisches SaaS-Unternehmen (heute Elastic Cloud) gekauft, damit wir Benutzern die Möglichkeit bieten können, unsere Produkte in der Cloud zu nutzen. Ein Open-Source-Projekt namens Packetbeat aus Berlin entschied sich dafür, sich uns anzuschließen. Letztes Jahr haben wir unsere Produktpalette um Beats erweitert und das beliebte „ELK“ zum Elastic Stack umbenannt. Außerdem haben wir X-Pack eingeführt, eine einzelne Installation für alle unsere kommerziellen Funktionen.

Anfang dieses Jahres haben wir uns zudem mit Google zusammengetan, um Elastic Cloud auf GCP anzubieten, wir haben Elastic Cloud Enterprise (ECE) gelauncht, um mehrere Elastic-Stack-Umgebungen vor Ort oder in einer privaten Cloud bereitzustellen und zu verwalten, und wir haben ein SaaS-APM-Unternehmen aus Kopenhagen übernommen.

JAXenter: Elastic wird von Millionen Menschen und einer Vielzahl von verschiedenen Unternehmen genutzt. Was macht Elastic – abgesehen davon, dass es Open Source ist – so beliebt?

Shay Banon: Elasticsearch wurde entwickelt, um die Macht der Datenexploration auf die Benutzer zu übertragen. Es gibt viele Gründe dafür, dass es bei Entwicklern so beliebt ist: Es lässt sich leicht starten und auf den Laptop herunterladen. Es lässt sich wunderbar für strukturierte und unstrukturierte Daten verwenden. Elasticsearch lässt sich horizontal skalieren, Daten können ganz leicht mit mehr als 200 Konnektoren eingespeist werden, Kibana-Visualisierungen sind intuitiv, leistungsstark und bieten Echtzeit-Explorationen. Außerdem lässt sich alles vor Ort oder in der Cloud verwenden.

JAXenter: Sie haben kürzlich die ersten Machine-Learning-Funktionen zum Elastic Stack hinzugefügt. Inwiefern profitiert der Elastic Stack von dieser fortschrittlichen Technologie, wie funktioniert sie?

Shay Banon: Machine Learning ist eine natürliche Erweiterung der leistungsstarken Such- und Analyse-Fähigkeiten von Elasticsearch. Unsere Benutzer speichern immer mehr Daten in Elasticsearch und Machine Learning hilft ihnen dabei, Unregelmäßigkeiten in ihren Daten automatisch und ohne die Nutzung externer Data-Science-Tools zu erkennen.

Es gibt zwar viele verschiedene Methoden für Machine Learning, aber wir verfolgen einen anderen Ansatz. Wir bieten keinen standardisierten Machine-Learning-Rahmen für Entwickler. Stattdessen haben wir das Machine Learning so gestaltet, dass es bei einem extrem wichtigen Anwendungsfall Mehrwert bietet: der Erkennung von Zeitreihen-Anomalien. Benutzer mit Zeitreihendaten in Elasticsearch können mit einer einfachen Installation von X-Pack anfangen, Machine Learning zu nutzen. Mit einer Kibana-Benutzeroberfläche können Benutzer Machine-Learning-Jobs einrichten und konfigurieren, sofort Ergebnisse anzeigen lassen, Anomalien erkennen und mögliche Ursachen finden. Sie können außerdem unsere Benachrichtigungsfunktionen nutzen, um in Echtzeit zu reagieren.

Machine Learning ist eine native Funktion des Elastic Stack. Daher können wir Machine Learning zukünftig auch für andere Anwendungsfälle wie die Anwendungssuche und APM nutzen.

JAXenter: Welche Auswirkung hat die Integration dieser Technologie auf den Benutzer? Welche Vorteile bietet sie?

Shay Banon: Sie hat gar keine Auswirkungen. Solange Benutzer die 5.5-Version verwenden, können sie Machine Learning nutzen und mit X-Pack in wenigen Schritten installieren. Es gibt allerdings unzählige Vorteile. Benutzer können immer mehr Daten in Elasticsearch einspeisen und speichern und Machine Learning nutzen, um Signale und Anomalien zu erkennen und automatische Benachrichtigungen zu erhalten. So werden einige der dringendsten IT-Betriebsablauf- und Sicherheits-Analytics-Anwendungsfälle auf skalierbare Weise gelöst.

JAXenter: Bringt diese neue Entwicklung auch Nachteile mit sich?

Shay Banon: Heute funktioniert die Technologie nur mit Zeitreihendaten wie Log-Dateien, Anwendungs- und Performance-Metriken, Netzwerk-Flows und Finanz- oder Transaktionsdaten. Das ist eine Menge.

JAXenter: Wie wird sich Machine Learning in naher und ferner Zukunft auf Suchmaschinen auswirken?

Shay Banon: Machine Learning wird bereits jetzt von großen Suchmaschinen wie Google genutzt. Es wird für Rankings, Query-Klassifizierung, das Verstehen von Dokumenten und Benutzer-Klassifizierung verwendet. Unsere Kunden wie BlaBlaCar, Expedia, Groupon, Uber und Yelp nutzen Machine Learning zusätzlich zu den Daten, die in Elasticsearch gespeichert sind, um die Personalisierung, Angebote und Monetarisierungsstrategien anzutreiben, und um ihren Benutzern das beste Online- oder Mobile-Erlebnis zu bieten. Zukünftig können wir Kunden genau wie bei der Zeitreihen-Anomalie-Erkennung die Möglichkeit geben, Machine Learning für andere Anwendungsfälle zu nutzen.

JAXenter: Anfang des Jahres haben Sie Ihre Kollaboration mit Google Cloud Platform bekanntgegeben. Wann sollte man Ihrer Meinung nach GCP nutzen und wann AWS?

Shay Banon: Wir glauben, dass Entwickler die Wahl haben sollten. Sie sollten ihre Anwendungen in einer beliebigen Cloud entwickeln und betreiben können. Jede Cloud bringt gewisse technische Vorteile oder Preisvorteile mit sich. Für uns ist Elastic Cloud dasselbe Produkt, ganz gleich ob Benutzer GCP oder AWS verwenden. Es ist wichtig zu verstehen, dass Elastic Cloud nicht das gleiche Produkt ist wie AWS Elasticsearch Service. Wir unterstützen das Produkt nicht und haben auch keine Partnerschaft mit AWS, wie wir sie beispielsweise mit Google haben.

JAXenter: Wird es auch eine Zusammenarbeit mit Microsoft Azure und IBM Bluemix geben?

Shay Banon: Wir arbeiten bereits eng mit Microsoft und IBM zusammen. Elasticsearch ist die Suchtechnologie in Microsoft Azure und Benutzer können Cluster des Elastic Stack auf Azure starten. Mit IBM ist der Elastic Stack die Logging- und Monitoring-Lösung für Bluemix und wird in IBM Watson verwendet. Auf Open-Source-Level leisten IBM-Entwickler einen wichtigen Beitrag zu den Globalisierungsbemühungen von Kibana. Genau wie gerade mit Google geschehen, können wir Elastic Cloud zukünftig auch auf Azure oder Bluemix/Softlayer anbieten.

Wir glauben, dass Entwickler ihre Anwendungen in einer beliebigen Cloud entwickeln und betreiben können sollten.

JAXenter: Was hat Elastic für das restliche Jahr 2017 und für nächstes Jahr geplant?

Shay Banon: Anfang dieses Sommers haben wir Opbeat übernommen, ein Unternehmen für Application Performance Management (APM) mit Sitz in Kopenhagen. Wir freuen uns sehr, dass die Firma jetzt zu unserem Team gehört, weil sie eine erstklassige SaaS-APM-Lösung entworfen hat, mit der Entwickler ihre Anwendungen messbar machen und ihren Code überwachen können. Genau wie beim Machine Learning ist APM ebenfalls eine Erweiterung von Elastic Stack. Dadurch haben unsere Benutzer die Möglichkeit, eine End-to-End-Lösung für die Suche, Logging, Metriken und Application Monitoring zu verwenden. APM ist Teil unserer Open Source.

Lesen Sie auch: AMIDST: Eine Java-Toolbox für skalierbares, probabilistisches Machine Learning

Außerdem bringen wir diesen Herbst unsere umfassende 6.0-Version heraus. Diese bietet viele neue Funktionen über den gesamte Elastic Stack hinweg. Wir haben ein komplett neues Upgrade-Erlebnis für die Migration von Anwendungen zu neuen Versionen erstellt, sehr hart an Lucene 7 gearbeitet, um Suchen noch schneller und effizienter zu gestalten. Wir haben eine neue Kibana-Query-Sprache namens Kuery eingeführt und viele neue Benachrichtigungs- und Sicherheitsfunktionen in X-Pack entwickelt. Zudem liefern wir eine Benutzeroberfläche zur Verwaltung von Logstash-Pipelines.

Shay Banon ist CEO von Elastic und Creator von Elasticsearch. Auf Twitter ist er unter dem Handle @kimchy zu finden, ausgewählte Artikel von ihm veröffentlicht er aufthedudeabides.com
 
 
Geschrieben von
Dominik Mohilo
Dominik Mohilo
Dominik Mohilo studierte Germanistik und Soziologie an der Goethe-Universität in Frankfurt. Seit 2015 ist er Redakteur bei S&S-Media.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.