JAX TV: Bessere Text-Klassifizierung mit Apache Mahout und Lucene

Claudia Fröhling

Text-Klassifizierung automatisiert den Task, Dokumente in vordefinierte Kategorien abzulegen. Der erste Schritt zur Automatisierung ist dabei die Transformation der Dokumente in Feature Vectors. Dabei hilft Apache Mahout mit seinen leicht zu nutzenden Werkzeugen, die zum Großteil auf Apache Lucene setzen, vor allem was Analyse, Tokenisation und Filtern betrifft. Dieser Talk von Isabel Drost-Fromm auf der JAX 2013 zeigt, wie man Facetting nutzen kann, um schnell ein Verständnis der Felder in Dokumenten zu bekommen.

Isabel ist übrigens Teil des Programm-Komitee unseres Medienpartners Berlin Buzzwords. Die Konferenz findet Ende Mai statt, seit kurzem ist ein erstes Line-up an Speakern und Talks auf der Seite verfügbar.









Geschrieben von
Claudia Fröhling
Claudia Fröhling
Claudia Fröhling hat in verschiedenen Redaktionen als TV- und Onlineredakteurin gearbeitet, bevor sie 2008 zur Software & Support Media GmbH kam und sich bis 2014 um alle Projekte des Verlages im Ressort Java kümmerte. Claudia hat einen Abschluss in Politikwissenschaften und Multimedia Producing. Ihr Google+ Profil findest du hier.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: