Suchen und Finden

Apache Lucene und Solr 5.2.0 sind da: Was ist neu?

Uwe Schindler

Knapp zwei Monate nach der Veröffentlichung des ersten Minor Release von Apache Lucene und dem zugehörigen Suchserver Apache Solr steht nun die nächste Ausgabe 5.2.0 zum Download bereit. Werfen wir einen Blick auf die interessantesten Neuerungen.

Lucene 5.2.0

Wie immer baut Apache Solr auf den Entwicklungen der Suchbibliothek Lucene auf: Hier wurden die positionsabhängigen Span-Queries (einer Verallgemeinerung der Abfrage nach Text-Phrasen) komplett umgeschrieben und teilen sich nun den zugrundeliegenden Code mit normalen boolschen Abfragen. Dadurch kann der dort vielseitig erprobte und hochoptimierte Code weiterverwendet werden. Es muss nur zusätzlich die Kontrolle der Positionsinformationen aus dem Index mit den Abfragetermen durchgeführt werden. Da dies sehr viel aufwändiger ist, wird dies ab Lucene/Solr 5.2 nur noch dann durchgeführt, wenn klar ist, dass alle Terme aus einer Phrase in der Treffermenge vorkommen, was gerade bei großen Indexen zu deutlichen Zeitvorteilen führt.

Durch diese Änderungen ist es nun viel schneller möglich, komplexe Abfragen nach Termen in der Nähe des Anfangs von Dokumenten oder solchen, die nahe beieinander liegen sollen, durchzuführen. Derartige Abfragen sind vielfach in der Textrecherche im wissenschaftlichen oder dem Patent-Umfeld nötig. Zudem wurde Lucene um noch experimentelle dreidimensionale Geoabfrage-Funktionen auf der Basis von Spatial4j erweitert.

Solr 5.2.0

Apache Solr baut auf diesen neuen Features auf. Nutzer können diese mit dem zeitgleich zu Lucene veröffentlichten Release des Suchservers auch schon gleich benutzen. Darüber hinaus wurde aber auch Solr um zusätzliche Funktionen erweitert. Ganz neu ist die Möglichkeit, das HTTP-Interface abzusichern. Dazu können Authentifizierungs- und Autorisierungs-Plugins geschrieben werden, um so Solr näher an die Sicherheitsrichtlinien des Firmennetzwerks zu bringen. Mit Version 5.2 wird dafür auch schon gleich eine Authentifizierung an Kerberos mitgeliefert. Frühere Versionen von Solr waren, wie viele andere NoSQL Datenbanken, „nach außen komplett offen“. Daher war es nötig, durch Reverse Proxies und Firewalls den Zugriff einzuschränken. Dies wird sich in Zukunft dank der neuen APIs verbessern.

Neben diesen Funktionen wurde auch die Administrationsoberfläche mit AngularJS neu programmiert und steht alternativ zur Verfügung. Intern basiert Apache Solr nun auf Jetty 9. Zuletzt wurde auch an dem neuen JSON Facet API gearbeitet, das ähnlich zu den Elasticsearch-Aggregationen arbeitet.

Benutzer von Elasticsearch müssen noch etwas auf ein neues Release mit Lucene 5 warten. Die nächste Version wird aber wohl Lucene 5.2 unter der Haube haben, wie auf der Berlin-Buzzwords-Konferenz letzte Woche zu erfahren war. Dort waren viele Vorträge über Search, Processing und Storing zu hören, unter anderem auch ein Vortrag über die Neuerungen in Apache Lucene 5.

Die Liste der Änderungen von Apache Lucene und Apache Solr sind auf der Projekt-Webseite zu finden. Viel Spaß beim Suchen & Finden!

Geschrieben von
Uwe Schindler
Uwe Schindler
Uwe Schindler ist Mitglied des Project Management Committee im Apache-Lucene-Projekt. Er ist mit seiner Consulting-Firma SD DataSolutions GmbH in Bremen ansässig und kümmert sich am Zentrum für Marine Umweltwissenschaften (MARUM) um die Suche nach geowissenschaftlichen Daten in der Umweltdatenbank PANGAEA.Blog: http://blog.thetaphi.deTwitter: @ThetaPh1
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: