Vertrauenswürdiges Objekt der Begierde

Objektspeicher: Das Zentrum des Internet of Things

Mathias Wenig

© shutterstock.com/ metamoworks

Wer digitale Konzepte wie IoT einführt, muss enorme Mengen an Daten verarbeiten. Den Trumpf halten jene in der Hand, die aus den Datenmassen schnell die richtigen Schlüsse ziehen und sie über Dienste veredeln können. Der richtige Objektspeicher im Zentrum hilft dabei immens.

Würde jedes Gerät, das Daten erfasst, diese akustisch wiedergeben – man würde an den meisten Orten sein eigenes Wort nicht verstehen. Hersteller unterschiedlicher Couleur bauen in ihre Alltags- und Gebrauchsgeräte Sensoren, Prozessoren und Software ein. Toaster, Kaffeeautomaten oder Mixer werden softwaredefiniert, damit die Hersteller ihre Produkte während des gesamten Lebenszyklus begleiten können. Auch die Produktionsstrecken, auf denen diese Produkte entstehen, werden mit einer Technikschicht überzogen. Mit den erhobenen Daten wollen Anbieter besser verstehen, wann und warum ihr Produkt aufhört, wie vorgesehen zu funktionieren, und wie der Kunde das Produkt bedient. Am Ende sollen ein zufriedener Kunde und mehr Marktanteile auf der Habenseite stehen. Die Menge der Daten, die ein Hersteller dann zu verarbeiten und auszuwerten hat, wird rasant zunehmen. Vergleicht man das Jahr 2016 mit 2017, stieg die Menge der gespeicherten Daten rapide um rund 49 Prozent an, wie der Data Genomics Index 2017 von Veritas erhoben hat.

Den großen Vorteil in diesem Wettstreit werden all jene haben, denen es gelingt, aus ihren Daten schneller richtige Schlüsse zu ziehen. Dafür müssen zwei Voraussetzungen geschaffen sein: Erstens gilt es, Plattformen aufzusetzen, die die zunehmende Flut der unstrukturierten Daten deutlich skalierbar aufnehmen. Wichtiger noch ist es, die Daten im zweiten Schritt zu veredeln, indem man ihre Inhalte versteht und die richtigen Informationen in klugen und flexiblen Prozessen automatisch weiterverarbeitet. Sei es in eigenen Cloud-basierenden Microservices oder bei Partnern, die mit ihren Diensten die Daten weiter anreichern oder ihre Leistungen an bestimmte gesammelte Datenkriterien koppeln. Ein typisches Beispiel wäre ein Premiumsupport, den ein externer Dienstleister für die Dauer des Vertrages erbringt.

Dem Charakter der Daten gerecht werden

Anwendungen im Rahmen von IoT werden Daten in Dimensionen von mehreren hundert Terabytes und in der Zukunft von mehreren Petabytes bis zu Zettabytes generieren. Es heißt, dass ein Connected Car allein mit seinen Systemen täglich ein Terabyte erschafft. Für diese Daten charakteristisch ist ihre größtenteils statische Natur. Hier werden aktuelle Zustände erfasst und in Archiven abgelegt, um sie später auszuwerten. Ähnlich zu diesem Beispiel verhält sich der Online-Handel aus Datensicht, bei dem einem Käufer weitere Attribute wie Interessen, Kaufhistorie, seine letzten Zugriffe auf Produkte als Metadaten zugewiesen werden. Auch Finanz- und Mediendienstleister wie Sky, Netflix oder Facebook agieren wie große Archive. Jeder Anwender, der auf seiner Social-Media-Site Bilder oder Videos hochgeladen, Kommentare abgegeben oder andere Inhalte aufgerufen hat, generiert Daten, die den Charakterzug statischer Daten besitzen.

Die Anbieter dieser Dienste haben früh erkannt, dass sich zum Speichern und Organisieren dieser Daten der sogenannte Objektspeicher am besten eignet. Es dürfte daher nicht überraschen, dass moderne Workloads wie S3, Facebook oder Spotify alle auf dieser Speicherarchitektur basieren. Auch in softwaredefinierten Architekturen und Open-Source-Projekten wie OpenStack und Swift oder Redhat und Ceph sind entsprechende Objektspeicher bereits integriert. Und die Entwickler moderner Applikationen und Dienste erwarten zudem, dass ihre Cloud-basierenden Konzepte auf solche Strukturen zurückgreifen können. Denn nur sie garantieren die einfache Skalierbarkeit in globalem Kontext. Der Vorteil eines Objektspeichers ist durch seine Struktur und Organisationsweise begründet: Daten werden als Objekt abgelegt und auffindbar gemacht. Der Objektspeicher setzt sich aus drei Elementen zusammen:

  • Die Daten selbst: Der Art sind keine Grenze gesetzt. Bei den Daten selbst kann es sich um ein Urlaubsbild handeln, um ein Musikstück, die Serienkennung einer bestimmten Fertigungsmaschine oder eine Konstruktionszeichnung einer ESA-Trägerrakete.
  • Weitere Attribute als Metadaten: Diese zusätzlichen Attribute sind dem Objekt fest zugewiesen und liefern weiteren Kontext, z. B. wann das Objekt kreiert oder von wem es kreiert wurde. Hier lassen sich Daten ankoppeln, die dann an weitere Microservices oder Machine Learning und Algorithmen zur weiteren Analyse durchgereicht werden.
  • Ein global einzigartiger Identifier: Dieser Identifier ist gleichbedeutend mit einer eindeutigen Adresse, unter der das Objekt in einem verteilten System zu finden ist. Auf diese Weise lassen sich die Daten per Anfrage schnell finden, ohne den tatsächlichen physischen Speicherort des Objekts (das Storage-System in Rechenzentrum X auf Kontinent Y) zu kennen.

Der Objektspeicher legt jedes Objekt mit all seinen Zusatzparametern wie den Metadaten als Ganzes ab. Komplexe Hierarchien, mit denen die Daten sonst kategorisiert werden, entfallen komplett, denn der User darf konzeptionell direkt auf das gesamte Objekt mit all seinen Zusatzdaten im Speicher zugreifen. Sollen einzelne Teile des Objekts modifiziert werden, so muss der Objektspeicher das ganze Objekt öffnen, aktualisieren und umschreiben und dann wieder speichern. Das kostet Systemressourcen, weshalb Objektspeicher sich perfekt für unstrukturierte Daten und Workloads eignen, die oft Read-, aber selten Write-Anfragen stellen. Für letztere Anwendungsfälle eigenen sich blockbasierte Speicher besser. Ein Beispiel für solche sich schnell ändernde Daten sind transaktionale Anfragen an Datenbanken, auf die konstant in Echtzeit geschrieben wird. Auch für Shares, auf die viele User gleichzeitig zugreifen und Daten schreiben, sind blockbasierende NAS-Systeme viel besser geeignet. Aber für diese Szenarien war und ist der Objektspeicher nicht vorgesehen.

Der große Vorteil des Objektspeichers ist seine simple und massive Skalierbarkeit. Um mehr Platz für Webinhalte, Back-up-Daten oder Archive zu schaffen, erweitert man den Objektspeicher einfach um neue Nodes. Der Speicher skaliert so nah am Bedarf, dass teure Wechsel der gesamten Infrastruktur nebst Ausfall- und komplexen Projektzeiten entfallen. Zusätzlich kann der User alte und neue Hardware miteinander mischen. Der sogenannte flache Namespace, in dem die Daten standortübergreifend als Objekte organisiert sind, und die anpassbaren Metadaten bilden die technische Grundlage dafür.

Ein Objektspeicher verwendet das sogenannte Erasure Coding, kurz EC, um die Daten im Namespace vor Fehlern und Verlust zu schützen. Dahinter verbirgt sich ein mathematisches Verfahren zum Datenschutz, das Daten in Fragmente aufteilt, erweitert und neu mit redundanten Teilen codiert. Diese werden dann im Schnitt an mindestens drei physikalisch getrennten Orten gespeichert. Fällt ein Node aus, sind die Daten immer noch auf zwei anderen präsent. Der User oder die Applikation bemerkt das oft nicht einmal. Daher ist es durchaus üblich, auf Hardwareseite günstige Commodity-Elemente zu verbauen, da die Objektarchitektur Ausfälle robust und schnell kompensiert. Die Grenzen der Skalierbarkeit eines Objektspeichers liegen in der Menge der Daten und Metadaten, die er pro Namespace verkraften kann. Die führenden Anbieter wie Veritas schaffen Zettabyte Volumen und Quillionen Objekte pro Namespace, um globalen Cloud-Workloads gerecht zu werden.

Kontrolle im Zentrum der Macht

Wo viele Daten zentralisiert sind, sind viel Macht und Verantwortung konzentriert. Den großen Trumpf halten Unternehmen in der Hand, die ihre Daten entsprechend säubern und exakt kontrollieren können, wer auf sie zugreift. Denn im Cloud-Kontext werden andere Dienste, Partner, Provider und ihre Algorithmen auf Teile der Firmendaten zugreifen wollen, um diese zu veredeln – sei es die Artificial Business Intelligence Engine von Google, der Finanzdienst eines Partners oder die Software des Logistikpartners. Alle diese zusätzlichen Aktionen sollen dem Kunden einen Mehrwert bieten und so Vorteile im Wettbewerb liefern.

All das funktioniert aber nur unter der Prämisse, dass die richtigen Daten an den richtigen Service weitergegeben werden, der Datenschutz gewahrt bleibt und nur derjenige auf Metadaten im Objekt zugreifen darf, der dazu berechtigt ist. Bei der großen Menge von Objekten pro Namespace und Datenvolumen in Zettabytedimensionen, muss der Objektspeicher selbst zwangsläufig eine Reihe dieser Aufgaben direkt an der Quelle abdecken. Dazu gehört im ersten Schritt, die Daten selbstständig und durchgängig zu klassifizieren, damit zu jedem Zeitpunkt eindeutig geklärt ist, um was für Inhalte es sich handelt. Wer diese Aufgabe über externe, nachgeklappte Zusatzmodule erledigen will, läuft dem Datenwachstum konstant hinterher und riskiert Flaschenhälse. Der Objektspeicher muss diese Aufgabe im Speicher selbst durchführen, bevor er Anfragen zu einem bestimmten Objekt beantwortet. Das ist essenziell, um Richtlinien wie die DSGVO einhalten zu können. Per Richtlinie lässt sich klar steuern, an welche angekoppelten Dienste das Objekt weitergegeben werden darf und an welche nicht. Veritas hat seinen Objektspeicher um die sogenannte Veritas Integrated Cognitive Engine, kurz VICE, erweitert. Diese Engine klassifiziert die Daten und kann basierend auf diesen Metadaten gemeinsam mit externen Workflow-Engines wie Kafka automatisch Aktionen und Workflows einleiten. So können Applikationsentwickler beispielsweise festlegen, dass personenbezogene Daten automatisch verschlüsselt werden, wenn sie an einen weiteren Dienst oder einen Workload übergeben werden. Sicherheit wird implementiert, bevor der Speicher die Anfrage beantwortet.

Ein Workflow kann zudem beispielsweise ein neues Metadatum erzeugen, durch das dann weitere angebundene Dienste ausgelöst werden. Im Kasten „Strafzettel als Microservice-Prozess“ wird dies an einem Beispiel deutlich. Dank der Klassifizierung und der integrierten Workflows kann man ebenfalls steuern, welche Daten für Machine Learning oder Artifical Intelligence genutzt werden. Je besser die Datenqualität ist, mit denen diese ausgereiften Algorithmen arbeiten, desto klarer deren Ergebnis. Natürlich muss der Objektspeicher, da er im Zentrum der Architektur steht, alle gängigen Protokolle und Plattformen im Cloud-Segment von sich aus unterstützen, über die er den Zugriff auf die gespeicherten Daten abwickelt. Dazu gehören S3, REST API, MQTT genauso wie Java, JDBC, Thrift, Kafka oder HDFS. Die Entwickler können also flexibel aus einer großen Zahl gängiger Schnittstellen wählen.

Mit dem Objektspeicher verwandelt sich also ein einfaches Datenarchiv in eine Steuerungs- und Säuberungszentrale, mit denen Firmen die Datenmassen der Digitalisierung und damit einhergehender Entwicklungen wie IoT bewältigen können. Das geschieht, indem Inhalte der Datenmassen eingesehen und auf dieser Basis Workflows angestoßen werden können, um die Daten anschließend zu veredeln. Das schafft die Grundlage für moderne Cloud-basierende Dienste, die auf globaler Ebene skalieren.

Strafzettel als Microservice-Prozess

Das Zusammenspiel zwischen Objektspeicher und Microservices lässt sich anhand einer alltäglichen Situation im Auto darstellen: Ein Autofahrer erkennt zu spät, dass die Ampel auf Rot umgesprungen ist. Die Radarfalle nimmt ein Bild auf und schickt es an die Verkehrsleitstelle. Dort wird das Bild als Objekt abgelegt. Ein Microservice greift das Bild ab, leitet es an eine Texterkennungssoftware weiter, die das Kennzeichen erkennt. Das Kennzeichen wird als weiteres Attribut zum Bild hinzugefügt, ein weiterer Microservice greift dieses Merkmal ab und gleicht es mit einer anderen Datenbank ab, um den Fahrer anhand des Kennzeichens zu identifizieren. Auch diese neue Information wird als weiteres Metadatum dem Objekt zugewiesen. Danach wird wieder über andere Microservices in anderen Datenbanken abgefragt, ob der Fahrer bereits zahlreiche Punkte hat, möglicherweise gar keine Fahrerlaubnis besitzt oder das Fahrzeug als gestohlen gemeldet wurde. Alle diese Ergebnisse lösen weitere Dienste aus, sei es, dass ein automatischer Alarm an die Polizei gesendet wird, um eine Fahndung auszulösen – oder ein Strafzettel erstellt wird, der dann per Post dem Fahrer zugesendet wird. Alle diese Dienste interagieren nach den Regeln festgelegter Workflows, die je nach Ergebnis und Metadatum weitere Ereignisse automatisch auslösen.In diesem Beispiel wird schnell klar, dass personenbezogenen Daten verwendet werden. Dabei ist entscheidend, dass der Objektspeicher fähig ist, kritische Daten dank integrierter Klassifizierung als solche zu erkennen und sie beispielsweise automatisch zu verschlüsseln. Rollenbasierende Zugriffe und Policies, die beispielsweise geographische Lagen einbeziehen, helfen immens, die Sicherheit der Daten zu schützen und regulative Vorgaben wie die DSVGO gleich zu Beginn einzuhalten. So können alle Folgedienste wie Maschine Learning oder Artificial Intelligence in vertrauenswürdiger Weise mit den Daten umgehen, da der Objektspeicher ihnen nur jene Informationen liefert, auf die sie per Policy zugreifen dürfen.

Geschrieben von
Mathias Wenig
Mathias Wenig
Mathias Wenig, Senior Manager Technology Sales/Digital Transformation DACH bei Veritas Technologies LLC leitet ein Team von technischen Sales Engineers in Deutschland, Österreich und der Schweiz. Er und sein Team sind dafür verantwortlich, Kunden jeder Größe in diesen Ländern dabei zu helfen, ihre Cloud-Strategie weiterzuentwickeln, ihre Rechenzentren zu modernisieren und IT-Governance zu integrieren.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: