Apache Tika 1.6 erschienen

Hartmut Schlosser

Das Apache-Projekt Tika ist in Version 1.6 erschienen. Bei Tika geht es darum, auf Basis von Parser Libraries Metadaten und strukturierten Text aus unterschiedlichen Dokumenten extrahieren.

In Tika 1.6 wurden zahlreiche Bugs behoben, was für eine bessere Stabilität sorgen soll. Neuimplementierungen gab es auch, beispielsweise ein neues Translation API. Außerdem werden zusätzliche Formate wie das Outlook Personal Folders File Format (*.pst) und Binary Matlab Files unterstützt.  

Tika wird beispielsweise bei der NASA in Earth-Science-Datensystemen genutzt, um große Mengen von Daten in verschiedenen Formaten zu verarbeiten. Zum Einsatz kommt u.a. der XML SAX Parser. Webcontent kann über Java-Interfaces, RESTful Webservices oder auch von Kommandozeilentools aus angesprochen werden. Unterstützt werden über 1.200 Dateiformate, darunter HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF und Java-Klassendateien.

Detaillierte Infos zur neuen Version gibt es in den Release Notes.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Content-Stratege, IT-Redakteur, Storyteller – als Online-Teamlead bei S&S Media ist Hartmut Schlosser immer auf der Suche nach der Geschichte hinter der News. SEO und KPIs isst er zum Frühstück. Satt machen ihn kreative Aktionen, die den Leser bewegen. @hschlosser
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: