Suchframework Apache Nutch 2.0 erschienen

Hartmut Schlosser

Die Apache Software Foundation hat die Verfügbarkeit von Nutch 2.0 bekannt gegeben. Apache Nutch ist ein Java-basiertes Suchframework, das verschiedene Projekte wie Solr, Tika, Hadoop und Gora nutzt, um Crawling, eine Link-Datenbank und Parsing-Support für HTML und andere Dokumentenformate bereitzustellen.

Die Version 2.0 folgt dem aktuellen Trend hin zu NoSQL-Datenbanken und führt hochskalierbare Crawling-Funktionen ein, die auf Big Data Stores wie Apache Accumulo, Apache Avro, Apache Cassandra, Apache Hbase oder das verteilte Hadoop-Dateisystem HDFS abgestimmt sind. Auch In-Memory Datastores und verschiedene SQL-Systeme profitieren von den Neuerungen.

Nutch-Vice-President Julien Nioche hebt die modulare Architektur hervor, die das Einbinden von Erweiterungen einfach hält, sowie den Anschluss an Big-Data-Standard-Technologien:

Nutch v2.0 is particularly exciting as it catches up with Apache projects like HBase, Cassandra, and Accumulo. The community’s response to the earlier versions of v2.0 has been very encouraging and we hope to see more and more people getting involved.

Apache Nutch kann auf der Projektseite kostenlos heruntergeladen werden. Die List of Changes zeigt alle Neuerungen im Detail.

Ebenfalls neu verfügbar ist Nutch 1.5.1, ein Maintenance-Release der 1.5.X-Entwicklungslinie. Hierfür steht ebenfalls ein Changelog zur Einsicht bereit.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.