Unstructured Information Management: Apache UIMA DUCC 1.0 erschienen

Hartmut Schlosser

Hinter dem Namen „UIMA DUCC“ verbirgt sich ein Apache-gehostetes Projekt für verteiltes Cluster Management, das jetzt in Version 1.0.0 erschienen ist. Das Projekt zielt auf das ebenfalls bei der Apache Foundation angesiedelte Framework UIMA (Unstructured Information Management Architecture) ab, mit dem sich große Mengen unstrukturierter Informationen analysieren lassen.

Mit UIMA können beispielsweise anhand von Plaintext-Eingaben Entitäten wie Personen, Orte oder Unternehmen identifiziert werden. 2005 von IBM ins Leben gerufen und von der OASIS-Gruppe standardisiert, wird UIMA seit 2006 bei Apache entwickelt und liegt derzeit in Version 2.4.2 vor. Framework wie zusätzliche Komponenten stehen in Java und C++ bereit.

Das Kürzel DUCC steht nun für „Distributed UIMA Cluster Computing“. Wie der Name schon andeutet, führt das Projekt Tooling, Management und Scheduling-Möglichkeiten für die automatische Skalierung von UIMA-basierten Anwendungen auf verteilte Systeme ein. DUCC basiert dabei auf der UIMA-AS-Komponente, die zwar einen Scale-Out-Mechanismus bietet, allerdings weder Job- noch Cluster-Management-Optionen aufweist.

UIMA samt seiner Komponenten, zu denen übrigens auch ein Java SDK gehört, kann auf der Projektseite heruntergeladen werden.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Content-Stratege, IT-Redakteur, Storyteller – als Online-Teamlead bei S&S Media ist Hartmut Schlosser immer auf der Suche nach der Geschichte hinter der News. SEO und KPIs isst er zum Frühstück. Satt machen ihn kreative Aktionen, die den Leser bewegen. @hschlosser
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: