Buchtipp: Taming Text

Untertitel

How to find, organize, and manipulate it

Autor

von Grant S. Ingersoll, Thomas S. Morton und Andrew L. Farris

Verlag

Manning Publications Co.

Erschienen

2013

Seiten

320

Preis

44,99 US-Dollar

Sprache

Englisch

ISBN

978-1933988382

Preis

44,99 US-Dollar

Für einen menschlichen Leser ist es nicht schwierig, Wörter in Texten zu verstehen. Selbst wenn Begriffe mehrere Bedeutungen haben, bleibt aus dem Kontext klar, was gemeint ist. Unser Gehirn vollbringt dabei eine Leistung, die Maschinen nur schwer erreichen können.

Taming Text widmet sich all den Schwierigkeiten, die auftreten können, wenn Texte maschinell verarbeitet werden. Es zeigt das Extrahieren, die Suche und Klassifikation von Informationen in Texten nicht nur in der Theorie, sondern führt den Leser auch in mehrere Open-Source-Projekte ein, die man zur Lösung dieser Probleme in seine Anwendung integrieren kann. Über die Kapitel verteilt werden mehrere Beispielanwendungen in Java vorgestellt, die eines oder mehrere der Projekte verwenden.

Die Kapitel widmen sich jeweils einem Problemgebiet und können größtenteils auch eigenständig gelesen werden. Man lernt über die Schwierigkeit, Text zu verstehen, größtenteils verursacht durch Mehrdeutigkeiten und den Kontext, in dem ein Begriff auftaucht. Die Suche in Texten wird ausführlich behandelt, mit Details wie Analyzing, der Struktur eines invertierten Index und dem Vector Space Model, das für mehrere Bereiche wichtig ist. Beispiele werden anhand von Apache Lucene und Solr vorgestellt. Apache OpenNLP wird für Entity Recognition, der Erkennung von Personen und Orten, und Tokenisierung von Texten eingesetzt. Ein größerer Teil des Buchs widmet sich schließlich noch dem Clustern von Text, der eigenständigen Zuteilung von Dokumenten im Cluster, und der Klassifikation und Kategorisierung, einem Lernprozess, der auf vorkategorisierten Dokumenten zum Training aufbaut. Carrot² wird für Clustering in Suchergebnissen in Solr verwendet, Apache Mahout zum Dokumenten-Clustering und für Klassifikation. Ein Kapitel widmet sich einem abschließenden Beispiel, das alles vorher gelernte zusammenfasst: Ein Frage-Antwort-System ähnlich IBM Watson, das natürlichsprachige Fragen entgegennimmt und versucht, Antworten aus einem aus Wikipedia extrahierten Datenbestand zu geben.

Außergewöhnlich an dem Buch ist, dass es mehrere unterschiedliche Themen behandelt, diese aber in einem zusammenhängenden Beispiel vereint. Das Buch ist für jeden gut geeignet, der natürlichsprachige Texte verarbeiten muss. Durch die Vielfalt der Themen und durch die zahlreichen Hinweise auf weiterführende Ressourcen ist es auch sehr gut als Ausgangspunkt für weiteres Lernen in einem der vorgestellten Gebiete geeignet.

Florian Hopf

Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: