Apache Tika 1.6 erschienen
Das Apache-Projekt Tika ist in Version 1.6 erschienen. Bei Tika geht es darum, auf Basis von Parser Libraries Metadaten und strukturierten Text aus unterschiedlichen Dokumenten extrahieren.
In Tika 1.6 wurden zahlreiche Bugs behoben, was für eine bessere Stabilität sorgen soll. Neuimplementierungen gab es auch, beispielsweise ein neues Translation API. Außerdem werden zusätzliche Formate wie das Outlook Personal Folders File Format (*.pst) und Binary Matlab Files unterstützt.
Tika wird beispielsweise bei der NASA in Earth-Science-Datensystemen genutzt, um große Mengen von Daten in verschiedenen Formaten zu verarbeiten. Zum Einsatz kommt u.a. der XML SAX Parser. Webcontent kann über Java-Interfaces, RESTful Webservices oder auch von Kommandozeilentools aus angesprochen werden. Unterstützt werden über 1.200 Dateiformate, darunter HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF und Java-Klassendateien.
Detaillierte Infos zur neuen Version gibt es in den Release Notes.
Hinterlasse einen Kommentar