Apache Tika 1.2 stetzt auf Apache CXF

Hartmut Schlosser

Die Apache Foundation hat die Version 1.2 von Apache Tika freigegeben. Mit dem Projekt lassen sich auf Basis existierender Parser Libraries Metadaten und strukturierter Text aus verschiedenen Dokumenten extrahieren.

In der neuen Version wurde Tikas JAX-RS basierter Netzwerk Server auf Apache CXF umgestellt. Als neues Dateiformat ist FITS (Flexible Image Transport System) hinzugekommen. Weitere Neuerungen werden in den Release Notes beschrieben.

Um einem Dokument seine textuellen Informationen zu entlocken, nutzt Tika den XML SAX Parser: Über einen ContentHandler wird ein Event generiert, sobald eine semantische Einheit wie eine Überschrift oder ein Mengentext beginnt oder endet. Auf diese Events kann der Prozess, der den Parser steuert, reagieren, als ob er ein XML- oder HTML-Dokument verarbeiten würde. In Wirklichkeit ist es aber oft ein Microsoft Word Dokument oder ein PDF.

Webcontent kann über Java-Interfaces, RESTful Webservices oder auch von Kommandozeilentools aus angesprochen werden. Unterstützt werden über 1.200 Dateiformaten, darunter HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF und Java-Klassendateien.

Tika kommt beispielsweise bei der NASA in Earth Science Datensystemen zum Einsatz, um große Mengen von Daten in verschiedenen Formaten zu verarbeiten.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.