Twitters Scala-API Scalding in Version 0.9 erschienen

Redaktion JAXenter

Ein neues Matrix-API und erweiterte Joins-Funktionalität bringt Version 0.9 des von Twitter entwickelten Scala-API „Scalding“. Dieses steht ab sofort zur Verfügung, wie Oscar Boykin im Twitter-Blog mitteilt.

Die Joins-Funktionalität des Fields API wurde in der neuen Version auf das überarbeitete Typed API übertragen. Abfolgen von Joins, Reduce-Prozessen und weiteren Joins werden nun als einzelne, kohärente MapReduce-Jobs festgelegt. Damit reduziert sich die Anzahl an einzelnen Arbeitsschritten. Für den Umgang mit schiefen Daten (skewed data) steht ein neuer Algorithmus nach dem Vorbild von Count-min-sketch zur Verfügung.

Ein neues Matrix API beschleunigt die Berechnung von Matrizen durch die Möglichkeit, die Reihenfolge von Matrizen-Multiplikationsketten dynamisch zu programmieren. Ab der kommenden Version 0.10.0 wird das bisherige Matrix API nicht mehr unterstützt.

Des Weiteren werden nun das spaltenbasierte Datenstruktur Parquet, das Projekt Apache Avro und die Klasse TemplateTap als Eingabe- und Ausgabeformate akzeptiert. Außerdem können innerhalb von Map- und Reduce-Funktionen Hadoop-Zähler gesetzt werden. Hadoops verteilter Cache wird ab dieser Version ebenfalls unterstützt.

Die Verwendung von Scala für die hochperformanten Twitter-Anwendungen gehört zu den meist genannten Einsatzszenarien der Programmiersprache, die auf der Java Virtual Machine läuft. Vor mehr als zwei Jahren hatte das Unternehmen Twitter sein Scala-API als Open Source verfügbar gemacht. Das API ist mit Apache Pig vergleichbar; allerdings liegt hier der Fokus aber auf der Integration mit Scala. Scalding basiert auf Cascading, einer Java-Bibliothek inklusive API, die auf Apache Hadoops MapReduce Layer aufsetzt. Scalding besteht aus zwei Komponenten: Eine DSL bringt MapReduce-Berechnungen mit Scalas Collections API in Einklang. Ein Wrapper für Cascading vereinfacht die Definition typischer Use Cases bei Jobs, Tests und bei der Beschreibung lokaler Datenquellen und solcher, die sich auf einem HDFS (Hadoop Distributed File System) befinden. 

Das neueste Release von Scalding kann über Maven Central bezogen werden. 

Geschrieben von
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: