Pentaho stellt Big-Data-Projekt Open Source

Hartmut Schlosser

Pentaho hat im Zuge der Veröffentlichung des Datenintegrations-Werkzeugs Kettle 4.3 die enthaltenen Big-Data-Funktionalitäten Open Source zur Verfügung gestellt. Das gesamte Pentaho-Kettle-Projekt, das auch unter dem Namen „Pentaho Data Integration Community Edition“ firmiert, soll zudem unter der Apache-2.0-Lizenz weiterentwickelt werden.

Die Big-Data-Funktionalitäten umfassen Dateninput und -output, Datenmanipulation und -Berichte unter Verwendung der Hadoop- und NoSQL-Datenspeicher Cassandra, Hadoop HDFS, Hadoop MapReduce, Hadapt, Hive, Hbase und MongoDB. Pentaho Kettle bietet darüber hinaus Funktionen zur Arbeit mit Hadoop-Jobs, Amazon EMR, Pentaho MapReduce, Hadoop Copy Files und Pig-Scripts. Mit dem Projekt ist es möglich, ETL-Transformationen außerhalb und innerhalb eines Hadoop-Clusters auszuführen.

Weiterführende Informationen stehen unter http://community.pentaho.com/BigData zur Verfügung. Zur ersten Annäherung empfehlen sich auch die verschiedenen Video-Tutorials auf der Projektseite.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.