Big Data for the Masses

Corinna Kern

Das 2003 von französischen Entwicklern gegründete Unternehmen Talend beschäftigt sich seit jeher mit ETL-Prozessen, also der Extraktion, Transformation und dem Laden von operativen Daten aus produktiven Umgebungen in BI-Systeme.

Business Technology Magazin

Mehr zum Thema Big Data finden Sie im aktuellen

Business Technology Magazin 2.2012

Das Phänomen „Big Data“ ist in den letzten Monaten zum „Big Topic“ geworden und so musste auch im Hause Talend eine Big-Data-fähigen Weiterentwicklung der Open-Source-Datenintegrationslösung her: Talend Open Studio bietet eine Werkzeugumgebung auf Basis des Eclipse-Frameworks, mit der sich Aufgaben bei der Verwaltung datenzentrierter Unternehmensanwendungen oder eines Data Warehouse automatisieren lassen.

So können Anwender etwa Datenbewirtschaftungsprozesse entwerfen und diese mit Hilfe von „Talend Open Studio Job Designer“ grafisch implementieren. Eine Komponentenbibliothek bietet Basisfunktionen für Mappings, Transformationen und Lookups, Filterung von Daten, Multiplexing und eben zur Extraktion, Transformation und Laden (ETL) von Daten. Talends Technology fungiert dabei als eine Art Link zwischen den traditionellen Datenquellen, wie Datenbanken, Applikationen und File Servern und den großen auf Big Data ausgelegten Technologien Hadoops, wie HDFS, HBase, Sqoop or Hive.

„Weiterentwicklung“ lautet bei Talend deshalb das Stichwort, weil die Auseiandersetzung mit Big Data nicht die Folge eines Hypes, sondern die logische Konsequenz eines Unternehmens ist, dass sich seit Jahren mit Daten und nun eben auch mit großen Mengen an Daten befasse, erklärte Ciaran Dynes, Senior Director of Product Management and Product Marketing jetzt bei der Talend Connect in Frankfurt: „Wir bieten eine Werkzeugumgebung, die es Leuten einfacher macht, traditionell Daten aus den verschiedensten Quellen, zum Beispiel einem CRM-System zu nehmen und zu bearbeiten. Aufträge, die sonst von einem Entwickler erledigt werden musste, können Benutzer selbst über unsere Komponenten im Eclipse-Development-Evironment erledigen.“ Bei Talend sehe man den einzigen wirklichen Unterschied, dass sich die Größe mit Big Data ändert, die neue Vielfalt der Daten stelle hingegen keinen Unterschied für das System dar, dazu bedürfe es lediglich einiger neuer Komponenten. Insgesamt sind es 550 dieser Komponenten, die im Talend-System zum Einsatz kommen, nur 20 bis 30 davon sind speziell für die Anforderungen von Big Data entwickelt worden.

Java Magazin

Wie sich das Thema Big Data in der Praxis anwenden lässt, erfahren Sie im aktuellen

Java Magazin 7.2012

„Everything old is new again“ lautete der Talend-Ansatz an Big Data. Dynes: „Wir erfinden das Rad nicht komplett neu. Alles was wir schon immer in Sachen Business Analysis gemacht haben, wurde nur einer neuen Klassifizierung unterzogen und steht jetzt einem neuen Typ von Daten gegenüber.“ Open Studio soll Big Data also nun für die breite Masse handhabbar machen: Grafische Komponenten veranschaulichen den darunter liegenden Code und sollen eine intuitive Interaktion mit den Daten ermöglichen, ohne dass komplizierter Code gelernt werden muss. Diese grafischen Komponenten sollen darüber hinaus auch die Konfiguration von NoSQL-Technologien, wie Hive und HBase vereinfachen.

Auch das Unternehmen Hortonworks hat Talend als Schnittstelle für sich erkannt: Talend Open Studio ist seit neuestem in Hortonworks Data-Platform embedded. Obwohl Open Studio für den einfachen Gebrauch leicht zu handhaben sei, berge es aber auch das Potential für größeres: „Ein Entwickler könnte das System wahrhaft ausreizen und noch wesentlich produktiver machen“, so Dynes. Hadoop sieht er hinsichtlich der Beherrschbarkeit noch unausgereift, da es in seiner Komplexität eigentlich erst ganz verstanden werden müsse, um richtig damit umgehen zu können. Der nächste Entwicklungsschritt für Hadoop werde folglich sein müssen, das System an traditionelle Database-Management-Technologien anzupassen.

Aus Dynes Sicht stehe Big Data eigentlich erst noch vor der großen Explosion: „Im Moment üben sich die meisten Firmen daran, überhaupt erst einmal das Phänomen Big Data zu verstehen, vielleicht ein Data-Profiling oder eine Analyse ihrer Datenqualität anzufangen.“ Es sei eine Frage der Zeit, bis diese Auseinandersetzung tatsächlich in einen Produktiveinsatz münde, der Managementtools, Support und so weiter erfordere, dann jedoch dürfte es explosionsartig werden.

Geschrieben von
Corinna Kern
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.