Sicher in der Wolke

Cloud Security mit Machine Learning: KI-Algorithmen für mehr Qualität bei Cloud-Dienstleistungen

Henrik Hasenkamp

© Shutterstock / NicoElNino

Kann man einen Hardware-Ausfall oder einen Hacker-Angriff voraussehen? Zumindest lassen sich aus den Funktionsdaten einer Infrastruktur – von der Temperatur der Devices über die Latenz bis hin zum Lese-Schreib-Verhalten – wertvolle Rückschlüsse ziehen, um die Qualität von Rechenzentrumsleistungen in der Cloud deutlich zu erhöhen. Durch selbstlernende Algorithmen entsteht ein System, in dem sich Predictive Maintenance und Live Scaling automatisiert umsetzen lassen.

Im Rahmen der Industrie-4.0-Diskussion ist es eines der Hauptthemen: die datenbasierte Optimierung von Infrastrukturen, wie etwa Produktionsumgebungen. Die Einsparungen, die sich mit darauf basierenden Konzepten wie Predictive Maintenance erzielen lassen, sind immens. Denn im Gegensatz zu den üblichen Wartungsansätzen – reaktiv oder im Intervall – wird beispielsweise ein Bauteil nicht dann ausgetauscht, wenn es kaputt oder laut technischen Daten an der Reihe ist. Vielmehr kommt der Ersatz, wenn er notwendig ist. Aus den Funktions- und den Umgebungsdaten lässt sich oft der optimale Zeitpunkt errechnen – kurz bevor es zum Ausfall kommt und oft später als vom vordefinierten Intervall empfohlen. Und nicht nur das: Dank dieser Datenanalyse gelingt es, Infrastrukturen während der Laufzeit zu optimieren.

Im Zeitalter des Cloud Computing, welches Unternehmen Flexibilität und Agilität der IT-Infrastruktur bei der Reaktion auf sich ändernde Bedingungen verspricht, erscheint es erstaunlich, dass die meisten Rechenzentren heute reaktiv oder intervallartig gewartet werden. Dabei lässt sich aus den Funktions- und Laufzeitdaten einer IT-Umgebung einiges herauslesen, denn fast jedem Ereignis gehen Anomalien dieser Daten voraus.

Daten-Anomalien erkennen und interpretieren

Die Telemetrie-Daten der Hardware-Devices und der Interaktion zwischen den Geräten entstehen im laufenden Betrieb, ohne dass jemand etwas dafür tun muss. Die meisten IT-Infrastruktur-Bestandteile bringen die entsprechenden Sensoren schon mit, um beispielsweise die Temperatur von CPU, Gehäuse und Festplatte zu messen, Latenzzeiten zu erfassen, I/O-Vorgänge zu zählen oder Logfiles zu protokollieren. Diese dauerhaft anfallenden Daten lassen sich nutzen, um die Qualität der Infrastruktur zu verbessern.

Ein Beispiel: Ein Ransomware-Angriff verursacht eine ungewöhnlich hohe Lese- und Schreibrate von Daten, zumindest im Vergleich mit dem Normalverhalten der User. Weicht also die I/O-Rate von einem zuvor definierten Korridor ab, könnte das System automatisch in diesem Moment Gegenmaßnahmen einleiten und beispielsweise den Zugang sperren. Größerer Schaden wäre verhindert. Wie soll allerdings der Infrastruktur beigebracht werden, wann eigentlich Abweichungen vom Normverhalten vorliegen und was genau dann zu tun ist?

Lesen Sie auch: DDos of Things: Vernetzung vergrößert die Angriffsfläche

Tatsächlich verbirgt sich hinter solchen Szenarien ein komplexes, hierarchisches Modell: Zunächst werden Attribute, sogenannte Features, aus den sensorisch erfassten Telemetrie-Daten definiert, die eine Bedeutung für die Funktionsfähigkeit der Infrastruktur haben. Eine darüber gelegte Algorithmik muss nun die Zusammenhänge zwischen den Daten untereinander und deren Veränderungen interpretieren. Wichtig dabei ist die Erkenntnis, dass nicht eine Anomalie als solche vorab definiert werden kann. Dies würde die Systematik zu stark auf vordefinierte Fälle eingrenzen. Vielmehr wird der Algorithmus mit fortlaufenden Daten gefüllt und jeder Moment mit einer Normabweichung als positives Ereignis markiert. Anhand dieser lernt das System, was Abweichungen sein können und wie sie im Zusammenhang mehrerer Komponenten stehen.

Wichtig für Leistungsfähigkeit des lernenden Modells ist die Festlegung der Features. Je mehr es sind, umso treffsicherer wird die Interpretation der Daten. Gleichzeitig steigt jedoch der Aufwand exponentiell – sowohl bei der Datenerfassung als auch bei der Auswertung. Der ideale Mittelweg lässt sich anhand von Tests mit Data Samples über einen gewissen Zeitraum aussteuern und unterliegt der ständigen Anpassung.

Python Summit 2018
Oz Tiram

Advanced Flow Control in Python

mit Oz Tiram (derico – web development & consulting))

3-Layer-Konzept für höchstmögliche Qualität der Cloud

Schließlich entsteht ein dreistufiges System für den Anbieter der Cloud-Infrastruktur. Im obersten Layer erfolgt laufend der Check, ob es jetzt im Moment einen Wert gibt, der so stark heraussticht, das von einem Problem ausgegangen werden muss. Entsprechende Echtzeit-Alarme verhindern die Ausbreitung des Schadens und leiten definierte Maßnahmen ein.

Wirklich vorausschauend agiert Layer 2: Aufgrund der gelernten Datenzusammenhänge, möglichen Schlussfolgerungen und definierten Werte-Korridore kann das System herausfinden, wenn etwas gerade nicht funktioniert oder demnächst nicht mehr funktionieren könnte. So lässt sich eben beispielsweise am Lese-Schreib-Verhalten einer Datenbank erkennen, ob sie dauerhaft an der Leistungsgrenze arbeitet und deshalb im Auge behalten werden sollte. Eine Website, deren Ladezeit sich verlängert, ohne dass es einen Anstieg der Zugriffe gab, fällt möglicherweise bald aus. Solche und ähnliche Szenarien dienen dazu, das optimale, weil kosteneffektivste, Wartungsfenster zu finden: kurz bevor es zu einem Problem kommt.

Datenbasierte proaktive Services umsetzen

Die dritte Ebene dieses Konzeptes setzt diese Infrastruktur-Optimierungen schließlich in konkrete Services um. Die bereits erwähnte Datenbank, die an der Belastungsgrenze arbeitet, kann so mitten im Betrieb und automatisch um eine weitere ergänzt werden, bevor sich die Latenzzeit für die User unangenehm auswirkt. Das Erkennen von großen Workloads schon während ihrer Entstehung macht es möglich, diese optimal auszusteuern und bei Bedarf auf andere Ressourcen zu migrieren. Denn gerade in Cloud-Umgebungen kommt es aufgrund der sich gegenseitig beeinflussenden virtuellen Maschinen immer wieder zu Performanceproblemen, wenn mehrere Workloads gleichzeitig anfallen. Live Migration schafft hier automatisch Abhilfe.

Lesen Sie auch: BC/DR, IT Resilience & Continuous Data Protection: „Unternehmen benötigen ständige Verfügbarkeit“

Das Ziel eines Infrastruktur-Betriebes ist es immer, höchstmögliche Dienstqualität so kosteneffektiv wie möglich umzusetzen. Die Cloud-Computing-Technologie liefert eine gute Basis für den flexiblen Einsatz von Ressourcen nach Bedarf. Wenn sich durch selbstlernende Algorithmen sowohl die Skalierung als auch die Wartung der Infrastruktur noch zielgenauer umsetzen lassen, kommt man der hundertprozentigen Verfügbarkeit zu nicht mehr als den wirklichen Bedarfskosten sehr nahe.

Geschrieben von
Henrik Hasenkamp

Als CEO von gridscale verantwortet Henrik Hasenkamp die Strategie und Ausrichtung des einzigen Infrastructure- und Platform-as-a-Service-Anbieters in Europa, der mit seiner innovativen Technologie die Basis für anspruchsvolle Cloud-Lösungen schafft.

Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: