Schnell und effizient

Data Sketches: Yahoo macht Algorithmen für effiziente, datenstrombezogene Berechnungen quelloffen

Michael Thomas

© Shutterstock.com/Ken Wolter

Data Sketches erlaubt durch approximative Berechnungen die ressourcenschonende Durchführung von Operationen, denen normalerweise ein hoher Zeitaufwand und Speicherbedarf innewohnt.

Kurz nachdem Yahoo seinen Webcrawler Anthelion quelloffen gemacht hatte, folgte schon der nächste Streich: Data Sketches ist eine quelloffene Bibliothek, deren Kern von Algorithmen gebildet wird, die schnellen Kalkulationen sowie Analysen großer Systeme, die keine hundertprozentige Genauigkeit erfordern, dienen. Die Algorithmen erlauben es nach nur einmaligem Kontakt mit einem Datenstrom, approximative Berechnungen durchführen. Dabei greift Data Sketches auf das Konzept der Sketches zurück, die grob gesagt die Zusammenfassung eines Datenstroms darstellen.

Ein Beispiel aus der Praxis, wie es Lee Rhodes (Architekt in der Abteilung Werbung und Datenplattformen/Yahoo) im Gespräch mit Venturebeat erwähnte: Angenommen, man möchte die täglichen Besucher einer Website eruieren – eine genaue Berechnung würde nicht unerhebliche Ressourcen (Speicherplatz, Arbeitsspeicher und Zeit) erfordern, und dass, obwohl in den meisten Fällen keine genaue Zahl benötigt wird, sondern statt dessen auch eine Annäherung ausreichen würde. Hier setzt Data Sketches an und bietet mit seinen Algorithmen eine extrem schnelle und Speicherschonende Alternative, deren Genauigkeit sich Rhodes zufolge (je nach Höhe des Inputs) in einem Bereich von plus-minus 1,5 Prozent bewegt.

Die Algorithmen kommen in zahlreichen Yahoo-Technologien, wie beispielsweise Yahoo Mail und Yahoo Search, sowie bei der von Yahoo im Juli 2014 übernommene Analyse- und Werbeplattform Flurry zum Einsatz. Mit Hive und Pig bietet Data Sketches eine Integration mit zwei Tools aus Hadoops Big-Data-Ökosystem; gleiches gilt für den quelloffenen Data Store Druid. Auch mit Maven arbeitet Data Sketches zusammen.

Die Java-basierten Data Sketches-Algorithmen können über GitHub bezogen werden und stehen unter Apache-Lizenz. Eine ausführliche Dokumentation kann der Data-Sketches-Website entnommen werden.

Aufmacherbild: Yahoo Corporate Headquarters Sign von Shutterstock / Urheberrecht: Ken Wolter

Verwandte Themen:

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: