Apache Tika 1.0

Hartmut Schlosser

Die Apache Foundation hat das erste Major-Release des Projektes Tika bekannt gegeben. Bei Tika handelt es sich um ein einbettbares Toolkit zur Content-Analyse. Webcontent kann automatisch extrahiert werden und über Java-Interfaces, RESTful Webservices oder auch von Kommandozeilentools aus angesprochen werden. Geparst werden Text und Metadaten in über 1.200 Dateiformaten, darunter HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF und Java-Klassendateien.

Tika kommt beispielsweise bei der NASA in Earth Science Datensystemen zum Einsatz, um große Mengen von Daten in verschiedenen Formaten zu bearbeiten. Im Zusammenspiel mit anderen Apache-Projekten wie Lucene und Solr wird bei der NASA die Daten-Verwaltung automatisiert, virtualisiert und effizient gehalten.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.