Text-Mining mit dem Weka-Framework

Maschinenlernen

martin szugat

Wie funktioniert ein Spam-Filter? Diese Frage lässt sich dank des quelloffenen Data-Mining-Frameworks Weka leicht beantworten, indem aufbauend auf vorgefertigten Komponenten eine maschinelle Textklassifikation in Java implementiert wird. Dieser Beitrag erläutert das notwendige Hintergrundwissen und zeigt den Umgang mit der Weka-Software.

Weka ist nicht nur die Bezeichnung für einen neuseeländischen, besonders neugierigen Vogel, es ist auch der Name eines Open-Source-Projektes der Universität Waikato aus Neuseeland. WEKA steht für Waikato Environment for Knowledge Analysis und bezeichnet ein Java-Framework für das Data Mining. Ziel des Data Mining ist es, aus vorhandenen Daten neues Wissen zu gewinnen.

Abb. 1: Die TextClassifier-Klasse im Weka Explorer
Geschrieben von
martin szugat
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.