Text-Analyse-Toolkit Apache Tika 0.9 - JAXenter

Text-Analyse-Toolkit Apache Tika 0.9

Hartmut Schlosser

Apache Tika ist ein Content Analysis Toolkit, mit dem sich Metadaten und strukturierter Textcontent über Parser-Bibliotheken auffinden und extrahieren lassen. In der aktuell erschienenen Version 0.9 sollen u.a. eine verbesserte Suche für iWork und OpenXML sowie Support für die litauische Sprache umgesetzt worden sein. Bernd Fondermann beschreibt Tika in seinem JAXenter-Artikel „Apache Lucene: Futter für den Index„.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.