Neue Hauptversion für die Java-Search-Engine und den NoSQL-Server

Apache Lucene und Solr 5.0 erschienen

Michael Thomas

© Shutterstock.com/wenani

Mehr als zwei Jahre sind seit der letzten Hauptversion 4.0 der Java-Search-Engine Apache Lucene und des NoSQL-Servers Apache Solr vergangen; vergangenen September erschien die letzte Nebenversion 4.10. Nun erfolgte der langerwartete Release von Version 5.0.

Highlights

Ein Gutteil der Arbeit an Solr 5.0 floss in Verbesserungen der Usability. Neue APIs wurden hinzugefügt; die Details der Implementation werden dabei in Zukunft nur noch denjenigen Usern angezeigt, die sie auch wirklich benötigen. Die seit Verson 4.10 enthaltenen Skripte für das Starten, Stoppen und Laufen von Solr-Instanzen wurden in ihren Funktionsmöglichkeiten erweitert: U.a. steht nun ein Skript zur Verfügung, das die Indexierung von Dokumenten und das Löschen von Solr-Collections ermöglicht.

Auch Skalierbarkeit und Stabilität sollen mit dem Update verbessert worden sein. So wurde vor Version 5.0 der gesamte Cluster State in eine einzige Datei geschrieben, die anschließend von jedem Knoten überwacht und bei Bedarf aktualisiert wurde. Nun verfügt jede Collection standardmäßig über einen eigenen Cluster State, was die Skalierbarkeit deutlich erhöhen soll. Neue Konfigurationsmöglichkeiten erlauben einen Blick „unter die Haube“ und damit beispielsweise die Drosselung des Replikationsbandbreiten-Verbrauchs

Last but not least unterstützt Solr 5.0 nun Distributed IDF für die verteilte Suche über ungleichmäßige Fragmente hinweg.

Alle weiteren Features, Verbesserungen – und auch Bugfixes – werden in der offiziellen Release-Miteilung beschrieben.

Lucene 5.0

Bei all den Neuerungen von Solr sollte jedoch nicht vergessen werden, dass auch Lucene ein Update erfahren hat. Version 5.0 bietet u.a. eine stärkere Index Sicherheit, eine reduzierte Heap-Nutzung sowie eine automatische IO-Drosselung im ConcurrentMergeScheduler. Ein Blogpost von Michael McCandless erläutert sämtliche Neuerungen im Detail.

Über Solr

Solr ist schon lange mehr als nur ein einfacher HTTP-Wrapper um Apache-Lucene-basierte Indizes. Es kann als eine NoSQL-Datenbank verstanden werden, die für die Suche in großen Datenmengen optimiert ist. Solr wird gerne als sekundärer Index für große, relationale Datenbanken eingesetzt, auf denen sich in der Regel schlecht über beliebige Attributkombinationen suchen lässt.

Lesetipps: Wie reif Apache Solr seit Version 4.3 für die Cloud ist, behandelt ein Artikel von Martin Breest und Jens Hadlich im Java Magazin 8.2013. Und wer sich genauer mit dem Thema Text Classification und Apache Mahout beschäftigen möchte, sollte einen Blick auf das Video von Isabel Drost auf der JAX 2013 werfen. Eine umfassende Einführung in Apache Lucene bietet der Artikel „Was ist eigentlich Apache Lucene?“ von Uwe Schindler.

Summer Background With A Magnificent Sun Burst With Lens Flare. Hot With Space For Your Message. Vector Available In My Port. – 95400283 : Shutterstock

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
4000
  Subscribe  
Benachrichtige mich zu: