Big Data: Auf dem Weg in die Multi-Zettabyte-Welt

Hartmut Schlosser

10 Milliarden Dateien auf einem System in 43 Minuten zu erfassen – dieses Kunststück ist nun IBM gelungen. Damit wurde der alte Rekord um das 37fache verbessert – ein Durchbruch bei der Verwaltung großer Datenbestände?

„Big Data“ ist eine der großen IT-Herausforderungen unserer Zeit: Allein im vergangenen Jahr ist die Menge digitaler Daten um 47 Prozent gewachsen. Das Bedürfnis, große Datenmengen auszuwerten, in denen Handlungs-relevante Informationen schlummern, ist gerade im Unternehmensumfeld so groß wie nie zuvor. Für IT-Systeme ist dies deshalb kritisch, da traditionelle Datenmangementsysteme den riesigen Daten-Volumen immer weniger gewachsen sind.

Big Data ist mittlerweile Thema in den Technologie-Labs sämtlicher IT-Großunternehmen, zahlreiche Forschungsprojekte verfolgen das Ziel, den neuen Datenmengen Herr zu werden.
Im Open-Source-Bereich versucht das Apache-Projekt Hadoop neue Wege zu beschreiten. Hadoop basiert auf dem MapReduce-Algorithmus von Google und ermöglicht es, Rechenprozesse mit Datenmengen im Petabyte-Bereich auf Computerclustern durchzuführen.

Bei IBM beschäftigt man sich seit 1998 mit dem Thema. Das damals vorgestellte skalierbare Dateiensystem „General Parallel File System“ (GPFS) wurde seither kontinuierlich weiterentwickelt und bildete jetzt die Software-Basis des Technologie-Stacks, mit dem der aktuelle Datenrekord gelungen ist. Der GPFS-Algorithmus wurde auf einem Cluster von 10 Achtkern-Serversystemen mit SSD-Speicher gestartet, wobei eine optimale Ausnutzung der Prozessorkerne in allen Maschinen und Aufgabenphasen erreicht worden sein soll.

Laut IBM konnte dank GPFS die eingesetzte SSD-Appliance mit nur 6,8 Terabyte an Kapazität bei hohen Datentransferraten ausgenutzt werden, um die Speicher-Metadaten abzulegen. Die Appliance konnte dabei hunderte von Millionen an Daten-I/O-Operationen ausführen, während GPFS unter den 10 Milliarden Dateien auf dem System den gewünschten Satz an Dateien identifizierte, auswählte und sortierte.

Damit ist IBM laut Doug Balog, Vice President IBM Speichersysteme, der Durchbruch in die Multi-Zettabyte-Welt gelungen:

Der Nachweis der GPFS-Skalierbarkeit eröffnet den Weg für neue Produkte, die die Anforderungen einer Multi-Zettabyte-Welt adressieren. Diese Innovation hat das Potential, sehr große Datenumgebungen auf einer einzigen Plattform zu vereinen, und dabei die Datenmanagementaufgaben dramatisch zu vereinfachen und zu reduzieren – wie Datenablage, Migration und Backup individueller Dateien. Doug Balog

Der bisherige Rekord der Datenverwaltung lag beim Scan von einer Milliarde Dateien in drei Stunden und wurde im Jahr 2007 ebenfalls von IBM bei einer Konferenz in Reno, Nevada, aufgestellt.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.