Suche

Amazon Elastic MapReduce 4.0.0 mit aktualisierten Hadoop-Anwendungen

Michael Thomas

© Shutterstock.com/Dirk Ercken

Elastic MapReduce, Amazons Webdienst für die Verarbeitung großer Datenmengen, steht ab sofort in einer neuen Hauptversion bereit.

Erstmals 2009 veröffentlicht, zielt Amazon Elastic MapReduce (Amazon EMR) unter Bereitstellung eines verwalteten Hadoop-Frameworks darauf ab, große Datenmengen in dynamisch skalierbaren Amazon EC2-Instanzen zu verteilen und zu verarbeiten. Die letzten Versionen brachten Features wie etwa die sowohl Server- wie Clientseitige Unterstützung von S3-Verschlüsselung oder den Im- bzw. Export von Daten via Hive/DynamoDB-Konnektor mit sich.

Aktualisiertes Hadoop-Ökosystem

Mit Amazon EMR 4.0.0 steht nun eine neue Hauptversion zur Verfügung, die die Plattform Unternehmensaussagen zufolge zahlreichen Änderungen unterzieht. Zentral sind dabei Updates für mehrere Anwendungen des Hadoop-Ökoystems, die EMR-Nutzern zur Verfügung stehen: Hadoop 2.6.0 gehört ebenso dazu wie Version 1.0 der Data-Warehouse-Software Apache Hive, Version 0.14 der High-Level-Plattform für die Erstellung von MapReduce-Programmen Apache Pig, sowie Version 1.4.1 des Spark-Frameworks.

Neue Features

Neben der neuen Möglichkeit, anhand der Quick Cluster Configuration-Funktion einen EMR-Cluster über die Konsole zu erstellen, steht in Amazon EMR 4.0.0 des Weiteren eine direkte Methode zur Bearbeitung der Standard-Konfigurationen von Anwendungen bei der Cluster-Erstellung bereit. Nutzer können nun ein Konfigurationsobjekt, das eine Liste der zu editierenden Konfigurationsdateien enthält, weitergeben. Das Konfigurationsobjekt kann vom CLI, dem EMR-API oder von der Konsole referenziert, die Konfigurationsinformationen können lokal oder mithilfe von Amazons Simple Storage Service gespeichert werden. Auch für Apache Spark stehen neue Konfigurationsmöglichkeiten zur Verfügung.

Last but not least bringt Amazon EMR 4.0.0 ein neues, auf Apache Bigtop basierendes Packaging-System, sowie (größtenteils) Open-Source-Standard-konforme Ports und Pfade, mit sich. Alle Änderungen, die sich im Rahmen des 4.x-Strangs ergeben haben, werden von Amazon in einer separaten Dokumentation näher erläutert.

Aufmacherbild: big data exabyte terrabyte or gigabyte in very large data set cloud computing storage von Shutterstock.com / Urheberrecht: Dirk Ercken

Verwandte Themen:

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: