Apache Tika 1.1 verfügbar

Hartmut Schlosser

Das Apache-Projekt Tika ist in der Version 1.1 erschienen. Überarbeitet wurde das PDF, RTF und MP3 Parsing. Einige neue Features für die Kommandozeile sind hinzugekommen, beispielsweise die Möglichkeit, Detektoren aufzulisten. Alle Neuerungen sind im Changelog nachzulesen.

Bei Tika handelt es sich um ein Toolkit zum Extrahieren von Metadaten und strukturiertem Text-Content aus einer Vielzahl verschiedener Dokumente. Zum Einsatz kommen existierende Parser Libraries, Webcontent kann über Java-Interfaces, RESTful Webservices oder auch von Kommandozeilentools aus angesprochen werden. Unterstützt werden über 1.200 Dateiformaten, darunter HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF und Java-Klassendateien.

Tika kommt beispielsweise bei der NASA in Earth Science Datensystemen zum Einsatz, um große Mengen von Daten in verschiedenen Formaten zu bearbeiten. Im Zusammenspiel mit anderen Apache-Projekten wie Lucene und Solr wird bei der NASA die Daten-Verwaltung automatisiert, virtualisiert und effizient gehalten.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.