Solr für's Web: Apache Nutch 2.2 erschienen

Hartmut Schlosser

Das Suchprojekt Apache Nutch ist in der Version 2.2 erschienen. Bei Nutch geht es darum, die populäre Apache-Solr-Suchengine um webspezifische Funktionen zu erweitern. Insbesondere wird ein Crawler, eine Link-Graph Datenbank und Parsing-Support bereitgestellt. Dafür macht Nutch vom Textanalyse-Projekt Apache Tika Gebrauch, außerdem ist Nutch Hadoop-fähig und kann seine Stärken auf großen Cluster-Systemen ausspielen.

In Nutch 2.2 wurde die Crawler-Commons-Bibliothek eingeführt, die für ein verbessertes robots.txt Parsing sorgen soll. Außerdem gab es zahlreiche Updates zu abhängigen Projekten, darunter Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 und Automaton 1.11-8. Das Changelog klärt über alle Veränderungen und Bugfixes auf.

Die Quellcodes für Apache Nutch 2.2 stehen auf der Projektseite und in den Maven Central zur Verfügung.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Hartmut Schlosser ist Redakteur und Online-Koordinator bei Software & Support Media. Seine Spezialgebiete liegen bei Java-Enterprise-Technologien, JavaFX, Eclipse und DevOps. Vor seiner Tätigkeit bei S & S Media studierte er Musik, Informatik, französische Philologie und Ethnologie.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.