Wikimedia steigt auf Elasticsearch um

Claudia Fröhling

Die gemeinnützige Organisation Wikimedia, Betreiberin der Online-Enzyklopädie Wikipedia, hat verlauten lassen, dass man künftig bei der Suche auf Elasticsearch setzen wolle. In der Bekanntmachung heißt es, man wolle die neue Infrastruktur Ende Februar als Beta-Feature und dann bis April als globales Feature ausrollen.

Der Umstieg ist eine bedeutende Referenz für das erst 2010 gegründete Projekt Elasticsearch, einem automatisch skalierenden Suchserver auf Lucene-Basis. Elasticsearch kümmert sich selbstständig um Sharding und Replikation, integriert zur Laufzeit neue Knoten des Clusters und verteilt automatisch den Suchindex neu. Dabei verfügt Elasticsearch über ein Interface, das per JSON über eine RESTful-HTTP-Schnittstelle genutzt wird.

Nein zu „special-purpose“ und „home-grown“

Die Gründe für den Wechsel zu Elasticsearch liegen bei Wikimedia nicht unbedingt an der Technologie selbst. Bislang hat man sich bei der Suche auf Lucene verlassen, allerdings – und das ist des Pudels Kern – wurde auf ein selbst entwickeltes System gesetzt. Dieses „home-grown“ Such-System namens „lucene-search-2“ stammt noch aus dem Jahre 2005. In der Bekanntmachung heißt es:

This is a fantastic search engine, which has powered the sites for years now, and has managed to scale very well for the past 8 years or so. Early in 2013 this became a point of significant operational problems; short-term we were able to patch some of the most glaring issues in lucene-search-2 but it became increasingly apparent that a replacement was needed. Robert is no longer around and the system is showing its age. We’re very happy with Lucene but we wanted to get out of the business of maintaining a special-purpose open-source search system when there are two very good general-purpose open-source search systems available: Solr and Elasticsearch.

Für die Integration in die Infrastuktur von MediaWiki hat man daher eine neue Elasticsearch-Erweiterung namens CirrusSearch geschrieben, die auch kompatibel mit dem alten System und frei verfügbar ist.

Der Umstieg einer der meistbesuchten Seiten im Internet auf eine NoSQL-Technologie wie Elasticsearch und das Bekenntnis hin zu Standards und weg von selbstentwickelten Systemen sind gute Neuigkeiten für das noch junge IT-Jahr 2014.

Wer sich detailliert mit den Möglichkeiten von Elasticsearch beschäftigen möchte, sollte einen Blick auf die zweiteilige Serie im Java Magazin (1.2014 und 2.2014) werfen. Dort erklären Bernhard Pflugfelder und Christian Meder, warum Elasticsearch die Fantasie der Entwickler und Architekten so stark anregt.

Geschrieben von
Claudia Fröhling
Claudia Fröhling
Claudia Fröhling hat in verschiedenen Redaktionen als TV- und Onlineredakteurin gearbeitet, bevor sie 2008 zur Software & Support Media GmbH kam und sich bis 2014 um alle Projekte des Verlages im Ressort Java kümmerte. Claudia hat einen Abschluss in Politikwissenschaften und Multimedia Producing. Ihr Google+ Profil findest du hier.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: