Suche

Solr für's Web: Apache Nutch 2.2 erschienen

Hartmut Schlosser

Das Suchprojekt Apache Nutch ist in der Version 2.2 erschienen. Bei Nutch geht es darum, die populäre Apache-Solr-Suchengine um webspezifische Funktionen zu erweitern. Insbesondere wird ein Crawler, eine Link-Graph Datenbank und Parsing-Support bereitgestellt. Dafür macht Nutch vom Textanalyse-Projekt Apache Tika Gebrauch, außerdem ist Nutch Hadoop-fähig und kann seine Stärken auf großen Cluster-Systemen ausspielen.

In Nutch 2.2 wurde die Crawler-Commons-Bibliothek eingeführt, die für ein verbessertes robots.txt Parsing sorgen soll. Außerdem gab es zahlreiche Updates zu abhängigen Projekten, darunter Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 und Automaton 1.11-8. Das Changelog klärt über alle Veränderungen und Bugfixes auf.

Die Quellcodes für Apache Nutch 2.2 stehen auf der Projektseite und in den Maven Central zur Verfügung.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Content-Stratege, IT-Redakteur, Storyteller – als Online-Teamlead bei S&S Media ist Hartmut Schlosser immer auf der Suche nach der Geschichte hinter der News. SEO und KPIs isst er zum Frühstück. Satt machen ihn kreative Aktionen, die den Leser bewegen. @hschlosser
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: