Teil 2: AIOps

DevOps-Trends: AIOps erkennt dynamische Grundmuster und kritische Ausreißer

Harbinder Kang

© Shutterstock / Tatiana Shepeleva

Im ersten Teil dieser Serie wurde beschrieben, wie Site-Reliability-Ingenieure aus der Analyse von Stör- und Fehlerdaten gezielte Maßnahmen zum Schutze von Infrastrukturen ableiten – und wie anspruchsvoll diese Aufgabe in hochskalierten Systemen sein kann. Automatisierung ist ein wichtiger Faktor, um auch komplexe IT-Umgebungen widerstandsfähig und belastbar zu gestalten. Mit AIOps, dem Einsatz intelligenter Monitoring-Algorithmen, kann die Bereitstellung und der Betrieb von IT-Ressourcen automatisiert überprüft und laufend optimiert werden.

Während Unternehmen ihre IT-Ressourcen zusehends in Multi-Cloud-Umgebungen auslagern, entwickelt sich die enge Vernetzung von Development und Operations zum Schlüssel für die Effizienz, Qualität und Belastbarkeit von Infrastrukturen. DevOps als enge Verzahnung von Entwicklung und Bereitstellung entwächst mit großen Schritten seinen Kindernschuhen und gewinnt an Reife. Technologische Ansätze wie Continous Integration, Container-Systeme oder auch Service Mesh schaffen Flexibilität und schnelle Roll-outs, werden in ihrer Gesamtheit zugleich allerdings auch immer komplexer. Händisch ist der Vielschichtigkeit an Systemen, Schnittstellen und Prozessen nicht beizukommen – deshalb ist Automatisierung ein wesentlicher Bestandteil der DevOps-Philosophie.

Intelligenter Blick auf Betriebsfunktionen

Eine Disziplin im DevOps-Umfeld, die zusehends an Bedeutung gewinnt, ist das Site Reliability Engineering, kurz auch SRE. Site-Reliability-Ingenieure leiten aus der Analyse von Stör- und Fehlerdaten gezielte Maßnahmen für eine zuverlässige Bereitstellung und für Wiederherstellungsprozesse ab – was in hochskalierten DevOps-Systemen eine anspruchsvolle Aufgabe darstellt. Um diese Herausforderung zu meistern, werden immer häufiger KI- und ML-basierte Werkzeuge genutzt. Sie bilden die Grundlage für AIOps: dem gezielten Einsatz von intelligenten Analyse-Tools zum Monitoring und zur Steuerung von Infrastrukturen. Und genau diese Tatsache, dass AIOps stichhaltige datenbasierte Einblicke mit dem IT-Betrieb kombiniert, ist es, was die neue Methode so innovativ macht.

AIOps erkennt Zusammenhänge

Jede Störung in einer Produktionsumgebung ist anders, ihre Tragweite kann allerdings gravierende Unterschiede aufweisen. Aus diesem Grund ist es essentiell für die Widerstandsfähigkeit von Systemen, schnell und genau die Dimensionen eines Zwischenfalls einschätzen zu können. Eine Alarmmeldung alleine reicht für eine exakte Analyse allerdings nicht aus. Schließlich braucht es für eine treffsichere Diagnose mehr als die Identifizierung von einzelnen Symptomen. In ihrer Gesamtheit können einzelne Meldungen allerdings auf drohende Probleme hinweisen, die eine ernsthafte Bedrohung für das System sein können. AIOps-Software ist in der Lage, relevante Prozesse zu beobachten und kausale Zusammenhänge über diverse Systeme und Services hinweg herzustellen. Analysekennzahlen, Protokolldaten, Tracing-Daten und Warnmeldungen werden zu einem übergreifenden Gesamtbild zusammengeführt. Aus diesen Erkenntnissen lässt sich wiederum ableiten, wann und wo bestimmte Ereignisse auftauchen und wie damit umgegangen werden kann. AIOps-Instrumente erkennen zudem, wo die gemeinsamen Wurzeln von Problemen liegen, die in separaten Netzwerken und Datenbanken auftauchen.

Ohne qualifizierte Daten läuft nichts

Die besten Algorithmen versagen, wenn die Qualität der Daten, mit denen sie gefüttert werden, nicht stimmt. Das gilt auch für AIOps. Erfassungs- und Analyseinstrumente müssen deshalb mit größter Exaktheit arbeiten. Unternehmen sollten gut geplante Prozesse zur Sammlung von Daten etablieren und die Informationen aus unterschiedlichsten Quellsystemen zentral konsolidieren. Der Stoff für eine AIOps-Analyse kann zum Beispiel als Klartext aus Webserver-Protokollen, als komprimierte Datei aus Betriebssystemprotokollen oder als Datensatz aus einer MySQL-Datenbank vorliegen. Vor diesem Hintergrund ist es in der Regel notwendig, im Vorfeld der Auswertungen Datenformate zu harmonisieren. Damit DevOps-Teams und SRE-Spezialisten die Ursachen für Anomalien so schnell wie möglich erkennen können, ist eine Verarbeitung dieser Daten für nahezu jeden AIOps-Anwendungsfall unverzichtbar. Zur Veranschaulichung: Tritt ein Software-Problem auf, das bis auf die Ebene der Endanwender durchschlägt, so kann dies schon innerhalb weniger Minuten die Erreichung der Geschäftsziele in Gefahr bringen – und das betroffene Unternehmen eine Menge Geld kosten. Gleiches gilt für etwa für eine Sicherheitsverletzung, die von außen auf eine IT-Landschaft einwirkt.

Wo fängt die Abweichung an?

Prinzipiell ist klar: Ein Störfall liegt vor, wenn Prozesse und Workflows von einer vorab bestimmten Norm abweichen. Was recht einfach klingt, bedarf allerdings einer gewissen Flexibilität in der Betrachtung. Schließlich können Zugriffszahlen, Nutzungsverhalten, der Verkehr im Netzwerk oder auch der Speicherbedarf innerhalb weniger Stunden stark variieren, ohne dass das eine Abweichung von gewöhnlichen Mustern bedeuten müsste. An diesem Punkt kommt der KI-Faktor ins Spiel: Die lernfähigen und intelligenten Alghorithmen von AIOps-Werkzeugen können Basiskennzahlen erkennen, die sich zwar dynamisch verhalten, aber im Tages- oder Saisondurchschnitt keine beunruhigenden Abweichungen vorweisen. Die intelligente Feststellung von Normalität innerhalb einer Infrastruktur ist die Voraussetzung dafür, dass zuverlässig und schnell kritische Abweichungen identifiziert werden.

Szenarien müssen ausbaufähig sein

DevOps zielt darauf ab, schnell neue Anwendungen zu entwickeln und bereitzustellen – und bestehende Szenarien mit einer ähnlichen Dynamik hochskalieren zu können. Wenn AIOps-Software dabei helfen soll, die Verlässlichkeit und Qualität der Bereitstellung zu gewährleisten, dann muss sie ebenso anpassungsfähig sein: Ihre Analyseprozesse und Kennzahlen müssen jederzeit neu definiert oder erweitert werden können. Spätestens, wenn diverse Instanzen, Multi-Cloud-Installationen, Microservices, Docker-Container und Kubernetes-Cluster zusammenkommen, hat auch eine ausgereifte AIOps-Lösung alle Hände voll zu tun.

Geschrieben von
Harbinder Kang
Harbinder Kang
Als Chefentwickler von Finastra hegt Habinder Kang eine Leidenschaft für Innovationen und Hightech. Die fortlaufende Weiterentwicklung der Finastra-Produkte und die kontinuierliche Optimierung der Software-Bereitstellungszyklen haben für Harbinder Kang oberste Priorität. Er hat vielfältige Erfahrungen im Management von weltweit verteilten agilen Teams, welche Finanzsoftware nach dem Prinzip der DevOps-Philosophie entwickeln.
Kommentare

Hinterlasse einen Kommentar

avatar
4000
  Subscribe  
Benachrichtige mich zu: