Observabilitätsplattformen verbessern die Fehlersuche

Herkömmliche Monitoring-Lösungen sammeln Daten von Endpunkten und analysieren diese anhand einer Reihe von Kennzahlen. Die Ergebnisse werden anschließend mit den jeweiligen Richtlinien und festgelegten Schwellenwerten verglichen, um den Zustand von Anwendungen und Systemen in der jeweiligen Umgebung zu bestimmen. Der Zustand eines überwachten Systems ändert sich, wenn Metriken einen Verstoß gegen Richtlinien feststellen, eine Warnung auslösen oder Aktionen zur Behebung der Störung auslösen.

Dieser Ansatz eignet sich optimal für die Überwachung und Fehlerbehebung von traditionellen Systemarchitekturen und monolithischen Anwendungen. Herkömmliche Überwachungslösungen schneiden jedoch bei Cloud-basierten Anwendungen und verteilten Infrastrukturlösungen schlecht ab.

Herkömmliche Monitoring-Lösungen weisen zwei entscheidende Schwächen bei neueren Anwendungen und Infrastrukturlösungen auf:

  • Warnmeldungen zeigen an, dass bei einem Objekt etwas nicht stimmt. Das funktioniert sehr gut, wenn das Objekt vorhanden ist, denn der Alarm ist mit einem Objekt verknüpft. Existiert das Objekt jedoch nicht mehr, wird der Alarm auch nicht ausgelöst.
  • Es mangelt an der Fähigkeit, eine vollständige Transparenz der Prozesse zu gewährleisten, die den Alarm ausgelöst haben. Die zugehörigen Informationen werden anschließend manuell gesammelt sowie überprüft und es wird versucht, eine Zeitleiste der Ereignissen zu erstellen.

Observability- bzw. Beobachtungsplattformen zielen darauf ab, den Betreibern eine ganzheitliche (Ende-zu-Ende) Sicht auf die Prozesse zu bieten, die mit der Verschlechterung des Systems in Verbindung gebracht werden und nicht nur die Wirkungen, sondern auch die Ursachen darstellen. Observabilitätsplattformen basieren darauf, die Beziehungen zwischen Objekten und Aktionen der Objekte zu bestimmen. Darüber hinaus werden wesentlich umfangreichere Datensätze gesammelt, die für die Analysen genutzt werden.

Das Monitoring einer Anwendung auf Basis einer Beobachtungsplattform teilt dem Nutzer beispielsweise mit, dass ein bestimmter Dienst nicht wie erwartet ausgeführt wurde, da die Last angestiegen ist und die Autoskalierungsfunktion einen Fehler aufweist. Eine traditionelle Monitoring-Lösung warnt nur, dass die Autoskalierungsfunktion einen Fehler aufweist, aber nicht unbedingt, dass der Auslöser ein Anstieg des Datenverkehrs auf einer bestimmten Seite auf der öffentlich zugänglichen Website zu suchen ist. Zusätzlich kann die Beobachtungsplattform auch eine bestimmte Funktion auf der betreffenden Web-Seite als Fehlerursache ermitteln.

Dadurch stehen den Nutzer alle notwendigen Informationen zur Fehlersuche und Fehlerbehebung zur Verfügung. Die genaue Beschreibung des Problems und dessen Detaillierungsgrad gehört zu den zeitaufwendigen Prozessen. Observabilitätsplattformen analysieren automatisch alle verfügbaren Daten und liefern die präzisen Informationen, die sowohl Ursache als auch Wirkung beschreiben und zu einer verkürzten Fehlerbehebung führen.

Ähnliche Szenarien lassen sich auch im Bereich der Infrastrukturdienste realisieren. Die Neukonfiguration von Stateful-Firewall-Regeln kann dazu führen, dass die Zustände von Sessions neu bewertet werden müssen, was einen erhöhten Ressourcenbedarf der Firewall zur Folge hat. Abhängig von der Firewall kann es zu erheblichen Auswirkungen kommen, die sich zusätzlich noch zwischen einer einzelnen umfassenden Regelkonfiguration und vielen kleinen Regeländerungen unterscheiden.

Wird beispielsweise ein Workflow bearbeitet, der die Firewall-Regel aktualisiert. Hierbei werden eine Reihe von Regeln geändert und anschließend jede Änderung sequenziell angewendet. Das Entwicklungssystem und die Test-Firewalls werden nur durch minimale Verkehrsströme belastet und weisen keine negativen Auswirkungen auf. Werden die Regeländerungen in den Produktions-Firewalls aktiviert, kommt es bei der Umsetzung der neuen Workflows zu erheblichen Leistungseinbußen.

In vielen Unternehmensnetzen wird beim oben dargestellten Szenario eine Warnung erzeugt und an das Netzwerkteam geschickt. Dieses sollte auch wissen, dass die Regeln aktualisiert wurden, aber diese verfügen möglicherweise über keine Einblicke in die den neuen Workflow. Eine Beobachtungsplattform kann eine Verbindung zwischen dem Workflow und den daraus resultierenden Auswirkungen und einen Zusammenhang zwischen Ursache und Wirkung und der geeigneten Reaktion herstellen. In diesem Fall würden sowohl das Automatisierungs- als auch das Netzwerkteam eine entsprechende Benachrichtigungen erhalten.

In der Praxis hängt eine detaillierte Analyse der Systeme und Prozesse von der Qualität der zur Verfügung stehenden Daten aller Systeme und Dienste ab. Dies erfordert den Zugriff auf die Gesamtheit aller Protokoll- und Systemdaten. Inkonsistenzen in den bereitgestellten Informationen der Systeme und Dienste kann eine automatische Beziehungserkennung verhindern, die durch eine zusätzliche manuelle Konfiguration der Beziehungen behoben werden kann.

Fazit

Mathias Hein, Consultant, Buchautor, Redakteur

Observabilitätsplattformen verbessern die Fehlersuche, indem sie eine Ende-zu-Ende-Transparenz bieten. Darüber hinaus wird die Korrelation von Ursache und Wirkung von Ereignissen verbessert und es werden vor allem  alle zuständigen Teams darüber informiert, warum ein Fehler aufgetreten ist.