Cloud-Computing ist ein nicht wegzudenkender Trend in der heutigen Zeit. Der Begriff Cloud-Computing ist so facettenreich, dass man eigentlich gar nicht per se von Cloud-Computing sprechen kann. Plattform as a Service, Function as a Service, Kubernetes, Software as a Service – alles Terminologien, die unter den Begriff des Cloud-Computing fallen können. Geht ein Unternehmen in die Cloud, ist es also gar nicht so eindeutig, was eigentlich gemeint ist.

Es lässt sich dennoch eine Gemeinsamkeit festhalten: Cloud-Computing ist fast immer mit Elastizität verbunden, sei es beim Hoch-, sei es beim Runterskalieren von Hard- oder Software. Nicht umsonst ist das Versprechen von Cloud-Computing schon seit jeher: „Pay only what you use“ – der Traum eines jeden Unternehmers. Das gleiche Versprechen gilt auch für die Betreiber der Software. „Scale up as you go“, lautet hier häufig das Versprechen.

Nur ein wichtiger Faktor wird in der Gleichung weitestgehend außen vorgelassen, nämlich der, der die Elastizität überhaupt möglich macht – der Entwickler der Software. Denn Cloud-Computing kann seine vollen Vorteile nicht entfachen, wenn die Software es nicht zulässt.

Gerade für die Entwickler ist das Ziel, wenn sie Applikationen entwickeln, die „für die Cloud gemacht sind“, vor allem eines: eine möglichst hohe Skalierbarkeit der Software zu gewährleisten. Sprich: Wenn viele Nutzer die Applikation gleichzeitig nutzen, können schnell neue Instanzen hochgefahren werden. Nimmt die Last wieder ab, können die Instanzen wieder freigelassen werden. Gehen Entwickler in die Cloud, so bedeutet das nicht selten, dass gewisse Skalierungskonzepte der Infrastrukturebene bereits Eingang in die eigene Systemarchitektur finden müssen: das strikte Trennen und Denken in zustandsbehafteten und zustandslosen Systemen. Denn nur durch diese Trennung kann das erhoffte und versprochene horizontale Skalieren der Cloud Realität werden.

Doch was bedeutet es, wenn wir sagen: „Wir denken in zustandsbehafteten und zustandslosen Systemen?“ Betrachten wir zunächst ein zustandsloses Beispiel. Klassische, formularbasierte Geschäftsanwendungen basieren meistens auf dem Request-Response-Modell des HTTP-Protokolls. Sendet der Browser des Benutzers also Daten, z. B. das Anlegen einer Entität zum Server, so verbindet sich dieser wiederum mit einer Datenbank und speichert die Daten entsprechend. Je nachdem, ob die Anfrage erfolgreich war oder nicht, sendet der Server eine Antwort. Welcher Server genau diese Anfrage beantwortet hat, ist dabei zunächst egal. Das gilt allerdings nur, wenn alle benötigten Informationen für die Anfrage auch zustandslos sind. Das ist ein Grund, warum tokenbasierte Authentifizierungsmethoden, die von JSON Web Tokens (JWT) Gebrauch machen, so großen Anklang finden. Denn diese Methoden machen die Server zustandslos, indem sie den Zustand (das Token) auf den Client verlagern und auch dort speichern. Genau dieses zustandslose Modell erlaubt das Skalieren der Server auf eine oder eben zwanzig Instanzen.

Anders sieht es aus, wenn der Client auf die Verbindung zu einem bestimmten Server angewiesen ist, er also zustandsbehaftet ist. Ein Paradebeispiel für zustandsbehaftete Anwendungen sind Anwendungen, die WebSockets nutzen bzw. das System, das oft damit verbunden ist. Häufig sind solche Systeme mit einem Presence-System gekoppelt. Ein Presence-System ist ein Feature einer Software, das einigen aus Chatsystemen bekannt ist. Dabei ist ein Presence-System dafür zuständig, Informationen zu speichern, z. B. darüber, in welchen virtuellen Räumen sich Benutzer befinden oder ob diese online oder offline sind. Diese Information muss anschließend in diesem System abruf- und aktualisierbar sein. Die einfachste Möglichkeit, ein solches System umzusetzen, wird in Abbildung 1 gezeigt. Die Implementierung eines Presence-Servers, der die Verbindungen der WebSockets pflegt, würde dazu zunächst die Daten der Räume in-Memory selbst pflegen und dabei in den jeweiligen Lebenszyklus-Methoden onConnect und onDisconnect Benutzer hinzufügen und wieder löschen, sofern ein Client die Verbindung verliert oder abbricht. Das birgt aber Probleme: Es ist lediglich eine einzelne Serverinstanz für die komplette Untermenge an Räumen zuständig. Das bedeutet, dass sich alle Clients immer genau mit dieser einen Instanz verbinden müssen, da andere Instanzen keine Chance hätten, über die existierenden Räume informiert zu werden.

Deshalb setzen solche Systeme häufig auf Sticky Sessions. Sticky Sessions sind eine Möglichkeit, bereits auf der Clientseite zu bestimmen, welcher Server die Anfrage eines Clients entgegennehmen soll. Diese werden beispielsweise durch query -Parameter oder Cookies abgebildet. Angewandt auf das System in der Abbildung 1 bedeutet das, dass sich die Clients jeweils mit einem konkreten Server verbinden. Dazu muss das System einen Routing-Key bereitstellen. Dieser könnte für diesen Anwendungsfall z. B. die ID des Raums sein. Das System würde dann garantieren, dass alle Clients desselben Raumes mit dem gleichen Server verbunden sind. Beispielsweise würden sich Client #1 und Client #2, die sich im Raum #1 befinden immer mit dem Server #1 verbinden.

Ein solcher Ansatz löst zwar das Problem des gemeinsamen Zustands (der durch Räume repräsentiert wird), führt aber das Problem der Load Imbalance ein. Gibt es Räume, die eventuell besonders viele Verbindungen pflegen, so sind diese Serverinstanzen eher überlastet, während die Instanzen mit wenig verbundenen Nutzern Rechenkraft verschwenden. Zusätzlich besteht ein weiteres Problem: Fällt diese Instanz weg, sind alle Räume der kompletten Instanz mit ihren Nutzern verloren. Außerdem gilt gerade im Cloud-Umfeld: Alles ist jederzeit ersetzbar. Im Umfeld von Kubernetes gibt es beispielsweise das Konzept der Rolling Deployments. Hier werden bei einem neuen Deployment alte Pods (= Instanzen des Presence-Systems) komplett heruntergefahren, während gleichzeitig neue hochgefahren werden. Es würden also mit jedem Deployment alle aktiven Räume unserer Applikation verloren gehen. Ein Problem, wenn man bedenkt, dass mehrere Deployments am Tag keine Seltenheit sind. Auch ist es mit diesem Ansatz sehr schwer, Funktionen umzusetzen, die die Informationen über die Gesamtheit der Räume kennen müssen.

Betrachtet man das Problem aus einer abstrakten Perspektive, dann wird klar, dass es sich bei einem Presence-System eigentlich um eine zustandsvolle Applikation, quasi eine Echtzeitdatenbank, handelt. Und solche sollten von den zustandslosen Applikationen getrennt und separat skaliert werden. Das ist ein Grund, warum die aus dem Node.js-Umfeld bekannte Bibliothek socket.io einen Adapter für Redis und das im Java-Umfeld bekannte Spring Framework für die WebSocket-Verbindungen ein RabbitMQ-Relay bereitstellt. Sowohl Redis als auch RabbitMQ sind auf Zustandshaltung und dessen Anwendungsfälle ausgelegt. Beide Systeme können beispielsweise in einem High-Availability-Modus ausgeführt werden. Das heißt, es ist möglich, dass beide ihre Daten auf verschiedenen Knoten replizieren, um Datensicherheit, auch bei Ausfällen einzelner Knoten, zu garantieren. Faktoren, die der Ansatz aus Abbildung 1 bis dato nicht berücksichtigt hat. Auch ist das Skalieren von Redis und RabbitMQ mit den entsprechenden Plug-ins wesentlich einfacher als die Eigenentwicklung eines eigenen Systems. Sowohl RabbitMQ als auch Redis können als Message Queue fungieren, die die Cross-Instanz-Kommunikation übernimmt.

Zur Lösung der angeführten Probleme des Presence-Systems bedeutet das also, dass ein zusätzliches System benötigt wird, das die reine Zustandshaltung der Räume übernimmt. Eine Architektur wie in Abbildung 2 ist deshalb förderlich.

Statt die Daten und Zustände der Nutzer in den Räumen wie zuvor von einzelnen Instanzen zu verwalten, ist es sinnvoll, diese Aufgabe an ein weiteres System, wie z. B. Redis, zu delegieren. Redis fungiert als Datenbank und Vermittler zwischen den Instanzen. Alle Instanzen der entwickelten Presence-System-Applikation registrieren sich dazu am externen Redis-System. Da es sich bei Redis um eine Datenbank handelt, gibt es standardmäßig Skalierungsfunktionalitäten wie asynchrone Replikation, Clustering und Sharding gratis dazu.

Dadurch wird vor allem erreicht, dass das Presence-System komplett von der Datenhaltung losgelöst ist und ganz anders skalieren kann. Durch die neue Architektur kann sich jeder Client mit jedem beliebigen Server verbinden und wäre voll funktionsfähig. Natürlich bringt auch das Implikationen mit sich. Dadurch, dass ein weiteres, drittes System eingeführt wird, gibt es natürlich eine weitere Systemgrenze und Systemgrenzen müssen fast immer versioniert werden. Wird also z. B. zwischen zwei Versionen ein Attribut eines Raumes hinzugefügt, geändert oder gelöscht, so müssen die neuen Deployments immer eine Art Migrationspfad bzw. Abwärtskompatibilität bereitstellen, um einen Parallelbetrieb mit alten Versionen zu gewährleisten. Das ist in der Entwicklung natürlich teurer als das bloße Neustarten einer Applikation im Betrieb.

Eigentlich hat der Kunde nur mal eben schnell ein simples Echtzeitsystem gefordert und heraus kam ein relativ komplexes System, was dem zustandslosen Deployment geschuldet war. Das hat mich zu der Erkenntnis gebracht: Hinter Cloud-Computing steckt häufig mehr als das bloße Anmieten von Infrastruktur – obwohl das definitiv das Hauptaugenmerk ist. Sehr viel mehr aber bewegt die Entwicklung von Applikationen, die vorrangig „für die Cloud“ entwickelt werden, den Entwickler zum Denken in verteilten, skalierbaren Systemen.

Und das bringt neue Herausforderungen für die Entwickler. Dabei müssen gerade diese darauf achten, ihre Systeme möglichst zustandslos zu implementieren und durch geeignete zustandsbehaftete Systeme zu ergänzen. Denn gerade das Skalieren und Warten von zustandsbehafteten Systemen sind eine extrem komplexe Aufgabe. Sharding, Replikations- sowie High-Availability-Mechanismen sind Problemfelder, über die sich bereits viele Personen die Köpfe zerbrochen haben und deren Wissens man sich bedienen sollte. Natürlich heißt das nicht, dass solche Systeme immer so komplex entwickelt werden müssen und die „einfache Lösung“ nicht ausreicht. Entwickler sollten sich meiner Meinung nach aber der Implikationen bewusst sein, was es heißt, wenn ein System zustandsbehaftet ist.