Die flinke Feder

Delete!

Bernd Fondermann

Ach, hätte man genug Platz um das vorvorletzte Handy oder das spannende, aber ausgelesene Buch aufzubewahren. Für später, für irgendwann. Leider habe ich schon genug Zeug herumliegen, also weg damit. Keine Gedanken muss ich mir hingegen darum machen, was mit den ganzen Informationen passiert, die ich den ganzen Tag erzeuge: Meine Körpertemperaturkurve, die um ein Zehntel Grad über den Tag schwankt; den Director’s Cut meines Lebens, den meine Augen sehen; die Wege, die ich durch Zimmer, Stadt und Land zurücklege und die seismographischen Resonanzen, die dabei erzeugt werden. Man stelle sich nur vor, diese ganzen Informationen würden aufgezeichnet und gespeichert. Wie absurd, wofür sollte das gut sein?

Themenwechsel. Im Sommer 2011 ging das Unternehmen Hortonworks an den Start, deren Geschäft auf dem Big-Data-Produkt Apache Hadoop [1] aufbaut. Im Firmen-Manifesto [2] stellt der Gründer Eric Baldeschwieler eine These auf: „We believe that more than half of the world’s data will be stored in Apache Hadoop within five years.“ Also schon 2016 sei die Hälfte aller Daten in Hadoop abgelegt. Klingt das nicht unglaublich, sogar unmöglich?

Glauben wir Eric Schmidt [3], so werden auf der Welt derzeit in zwei Tagen so viele Bits und Bytes erzeugt, wie vom Anfang der Zivilisation bis 2003. Nämlich fünf Exabyte, innerhalb von nur 48 Stunden. Wie sollte man das so genau messen können? Sonntags werden sicher wesentlich weniger Daten erzeugt als Freitags – man schaue sich nur auf Facebook den „Thank god it’s Friday!“-Jubel an! Was Schmidt damit wahrscheinlich vereinfacht sagen will: Die Menge der gespeicherten Digitalinformation wächst exponentiell. Das könnte hinkommen. Es würde gleichzeitig bedeuten, dass schon in einem halben Jahr während zweier Tage wesentlich mehr Daten erzeugt werden als heute noch. Die Exponentialfunktion ist da wirklich sehr konsequent, da kommt es auf das eine oder andere Exabyte heute gar nicht an. Ein Exabyte sind übrigens 1018 Byte oder 1 Million Terabyte.

Warum ist das realistisch? Fotografieren ist allgegenwärtig, und die Auflösung von bewegten und stehenden Bildern steigt in immer neue Pixelhöhen. Wir bewegen uns in der digitalen Welt auf einem Teppich aus Log-Daten. Jeder HTTP-Request ein Log-Eintrag. Jeder Wechsel der Mobilfunkzelle ein neues Puzzlestück im Bewegungsmuster. Jede Bewegung vor der Überwachungskamera eine Sequenz neuer Bilder, übertragen und gespeichert. Irgendwann können wir unser Langzeitgedächtnis komplett in die Cloud verlagern, wo es wesentlich akkurater und hochauflösender abrufbar sein wird als aus unseren grauen Zellen. Immer mehr Menschen bewegen sich in immer größeren Datennetzen. Und wer glaubt, beim einwandfreien handyfreien Kraxeln im Gebirge oder beim Angeln in der akkuentleerten Einsiedelei definitiv keine Daten zu erzeugen, der vergisst die kleinen aufmerksamen Begleiter am Himmel, die uns eifrig filmen und abhören und die dabei gewonnenen Daten wieder in die digitalen Netze am Boden hineinfunken. Und damit meine ich nicht nur Satelliten, sondern auch die viel günstigeren Drohnen, die ja gerade erst richtig in Fahrt kommen. Aufgenommen wir alles. Sogar aufbewahrt.

Der vermutlich größte universelle Datenspeicher – oder ist der Begriff Deponie schon angebracht? – entsteht nach einem Bericht von Wired [4] in Utah und soll ab dem nächsten Jahr dem US-Geheimdienst NSA zur Verfügung stehen. Und die hören wirklich alles ab, was sie vor die Riesenlauscher bekommen. Man sollte sich im Klaren darüber sein, dass was heute eine ausreichend verschlüsselt Kommunikation ist, vielleicht schon in 10 oder 20 Jahren mit viel weniger Aufwand zu entschlüsseln ist. Wenn es dann noch jemanden interessiert.

Wenn also immer riesigere Datenmengen generiert und gespeichert werden, dann ist es wohl nicht ganz unwahrscheinlich, dass ein guter Teil davon auch in Hadoop landet – dafür ist es schließlich gebaut. Damit ist Badeschwielers Vorhersage, dass schon bald die meisten aller Daten in Hadoop gespeichert werden, immer noch kühn, aber längst nicht mehr unwahrscheinlich.

Sie meinen, die NSA würde nie selbst Hadoop nutzen, weil sie eigene, bessere Systeme entwickelt hat? Vielleicht. Aber zumindest das Apache-Projekt „Accumulo“ [5] wurde seit 2008 bei der NSA entwickelt, es wurde letztes Jahr Open Source und ist bereits dem Incubator entschlüpft. Das Open-Sourcen solcher Projekte ist nicht nur wegen der Geheimhaltung schwierig, sondern auch weil in den USA die Besonderheit gilt, dass jedes Werk (also auch Quellcode) eines Staatsbeamten „public domain“ ist. Darauf eine Lizenz zu packen, und sei es die liberale Apache-Lizenz, ist mit Accumulo zum ersten Mal gelungen.

Accumulo baut technisch auf Hadoop auf und nutzt Apache Zookeeper. Wie das bekanntere Projekt Apache HBase [6] ist es eine BigTable-Implementierung, also eine hochskalierbare Form einer Datenbank, die Daten verteilt und redundant in einem Cluster speichert. Dies ist durch den Verzicht auf einige Eigenschaften von klassischen relationalen Datenbanken möglich. Man gewinnt zusätzlich die Entkopplung von Schreib- und Leseoperationen.

Letzten Endes gibt es auch noch eine speicheroptimierte Lösung für die Datenlawine. Um die Menschheit davor zu bewahren, zum Datenmessie zu werden, sollten wir ein wohlpraktiziertes technisches Ablageprinzip auch für unsere digitalen Daten in Erwägung ziehen. Dieses Prinzip ist das Geschwisterkind des juristischen Prinzips der Verjährung, dem Wegschmeißen (Ablage P) und dem Segen des Vergessens. Es heißt: Löschen.

Bernd Fondermann (bernd@zillion-one.com) ist freiberuflicher Softwarearchitekt und Consultant in Frankfurt am Main und Member der Apache Software Foundation. Er beschäftigt sich mit innovativen Open-Source-Technologien wie Apache Hadoop oder Lucene und bietet unter zillion-one.com einen Big-Data-Hosting-Service an.
Geschrieben von
Bernd Fondermann
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.