JAX TV: Bessere Text-Klassifizierung mit Apache Mahout und Lucene

Text-Klassifizierung automatisiert den Task, Dokumente in vordefinierte Kategorien abzulegen. Der erste Schritt zur Automatisierung ist dabei die Transformation der Dokumente in Feature Vectors. Dabei hilft Apache Mahout mit seinen leicht zu nutzenden Werkzeugen, die zum Großteil auf Apache Lucene setzen, vor allem was Analyse, Tokenisation und Filtern betrifft. Dieser Talk von Isabel Drost-Fromm auf der JAX 2013 zeigt, wie man Facetting nutzen kann, um schnell ein Verständnis der Felder in Dokumenten zu bekommen.
Isabel ist übrigens Teil des Programm-Komitee unseres Medienpartners Berlin Buzzwords. Die Konferenz findet Ende Mai statt, seit kurzem ist ein erstes Line-up an Speakern und Talks auf der Seite verfügbar.
Hinterlasse einen Kommentar