Unstrukturierte Daten analysieren

Apache veröffentlicht UIMA Java SDK 2.7.0

Kypriani Sinaris

©Shutterstock/faithie

Das Java SDK des Apache-Projektes UIMA ist in Version 2.7.0 erschienen. Enthalten sind einige signifikante Neuerungen sowie Bugfixes. Benötigt wird mindestens Java 7.

2005 von IBM gestartet, befindet sich UIMA seit 2006 in den Händen von Apache. Ziel des Frameworks ist es, große Mengen an unstrukturierten Daten zu analysieren und Informationen aufzufinden, die für den End-User relevant sind. Diese Informationen können in verschiedenen Formaten vorliegen, wie beispielsweise Text-, Audio- oder Bilddateien. Etwa können aus reinen Textdateien semantische Entitäten wie Personen, Orte oder  Unternehmen extrahiert werden.

Die Version 2.7.0 bietet zahlreiche neuen Features. Beispielsweise wird eine neue JSON Serialisierung der CAS und UIMA Deskriptoren unterstützt. Die Änderungen gehen allerdings so weit, dass an einigen Stellen die Rückwärtskompatibilität gebrochen wird. Neue JVM Properties sollen dabei helfen, die Neuerungen schrittweise einzuführen.

Apache UIMA ist eine Open-Source-Implementierung der UIMA Spezifikation, die derzeit von der OASIS entwickelt wird. Die von Apache UIMA entwickelten Komponenten sind für C++ und Java verfügbar.

 

Aufmacherbild: cloud to database von Shutterstock / Urheberrecht: faithie

Geschrieben von
Kypriani Sinaris
Kypriani Sinaris
Kypriani Sinaris studierte Kognitive Linguistik an der Goethe Universität Frankfurt am Main. Seit 2015 ist sie Redakteurin bei JAXenter und dem Java Magazin.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
4000
  Subscribe  
Benachrichtige mich zu: