Suche

Big-Data-Suchframework Apache Nutch 1.6 verfügbar

Hartmut Schlosser

Die Version 1.6 des Apache-Open-Source-Projektes Nutch ist erschienen. Apache Nutch ist ein Java-basiertes Suchframework, das verschiedene Projekte wie Solr, Tika, Hadoop und Gora nutzt, um Crawling, eine Link-Datenbank und Parsing-Support für HTML und andere Dokumentenformate bereitzustellen.

Nutch 1.6 ist ein Maintenance Release der „alten“ 1.x-Entwicklungslinie. Mit 20 Bugfixes, 20 Feature-Verbesserungen und einer Handvoll neuer Funktionalitäten wartet das Release auf. Beispielsweise gibt es einen neuen HostNormalizer sowie die Option, fetchInterval dynamisch anhand des MIME-Type zu bestimmen. Überarbeitet wurde das Indexer API, etwa soll die Normalisieung von URLs und die Verwaltung von robots-noIndex-Dokumenten verbessert worden sein. Auf den neuesten Stand wurden einige Abhängigkeiten gebracht, beispielsweise wird nun Tika 1.2 und Automaton 1.11-8 unterstützt.

Ausführliche Informationen zum Release finden sich in den Release Notes. Zum Download geht es auf der Projektseite. Dort stehen übrigens auch alle Ressourcen zur neueren 2.x-Entwicklungslinie bereit, die u.a. ein erweitertes NoSQL-Big-Data-Backend und ein vereinfachtes Distribution-Building bietet. Die aktuelle Version trägt die Nummer 2.1. Neu sind hier hochskalierbare Crawling-Funktionen, die auf Big Data Stores wie Apache Accumulo, Apache Avro, Apache Cassandra, Apache Hbase oder das verteilte Hadoop-Dateisystem HDFS abgestimmt sind.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.