Fehlersuche in Cloud-Architekturen

Das Identifizieren und Beheben von Problemen im Zusammenhang mit der Netzwerk-Performance in hybriden Cloud-Architekturen ist eine immense Herausforderung. Folgende fünf Praxistipps vereinfachen die Aufgabe.

Oftmals beschweren sich Benutzer über Probleme mit der Netzwerk- und Anwendungsperformance. Da der Einsatz von Cloud-Lösungen oft mit dem Verlust der Transparenz der zugrunde liegenden Cloud-Netzwerke einhergeht, werden die bekannten und traditionell genutzten Methoden und Werkzeuge zur Fehlerkennung und Fehlerbehebung unwirksam. Die Netzadministratoren und Troubleshooter müssen daher alternative Wege und Methoden suchen, damit die Sichtbarkeit wiederhergestellt werden kann. Die folgenden Tipps dienen der besseren Fehlerbehebung bei der Anwendungsperformance in Public-Cloud- oder Hybrid-Cloud-Umgebungen.

 

Tipp 1: Überprüfen, ob die Anwendung und alle Dienste von Ende-zu-Ende betriebsbereit sind

Der erste Schritt im Troubleshooting-Prozess besteht darin, sicherzustellen, dass der Cloud-Provider kein Problem hat. In Abhängigkeit, ob es sich bei dem genutzten Dienst um ein SaaS-, PaaS- oder IaaS-Modell handelt, ändert sich der Analse- bzw. Verifizierungsprozess. Beispielsweise verfügt die Salesforce-SaaS-Plattform über eine Statusseite (https://status.salesforce.com), auf der die Administratoren erkennen können, ob bereits ähnliche Vorfälle bekannt sind, Ausfälle aufgetreten sind oder aktuell durchgeführte Wartungsarbeiten durchgeführt werden, die sich auf die Benutzer und deren Performance auswirken können.

Bei der Fehleranalyse sollte auch nicht vergessen werden, dass unter Umständen andere Dienste einen direkten Einfluss auf den Zugriff bzw. die Leistung des Cloud-Services haben können. Dienste wie beispielsweise DHCP und der Zugriff auf interne/externe DNS-Ressourcen gehören zu den Zusatzdiensten, die erhebliche Probleme verursachen können. In den meisten Fällen wirken sich diese so aus, als ob etwas mit dem Netzwerk nicht stimmt. In Abhängig davon, von wo aus der Endbenutzer auf die Cloud-Anwendung zugreifen möchte, können die genutzten DHCP- und DNS-Server stark variieren. Die Überprüfung, ob Endbenutzer die richtigen IP-Konfigurationen (IP-Adressen, Subnetzmasken, Router-Adressen, etc.)  erhalten haben und die DNS-Adressen richtig aufgelöst werden, erspart viel Zeit und Kopfschmerzen.

 

Tipp 2: Die letzten Änderungen der Netzwerkkonfiguration müssen überprüft werden

Wenn ein Performance-Problem für eine Cloud-App scheinbar aus dem Nichts auftaucht, ist wahrscheinlich eine aktuelle Netzwerkänderung schuld daran. Aus diesem Grund sollte man im eigenen Firmen-LAN zuerst alle Firewall-, NAT- oder VLAN-Erweiterungen/Änderungen überprüfen. Dadurch schließt man aus, dass nicht versehentlich ein selbstverursachtes Problem zu einem Ausfall oder Engpass geführt hat. Auch innerhalb von IaaS-Clouds sollte bei Problemen auf aktuell vorgenommene Netzwerkänderungen geachtet werden.

QoS oder andere verkehrsbeeinflussende Mechanismen (beispielsweise Loadbalancing, Komprimierung) können auch ungewollt die Leistung zwischen dem Firmen-LAN und Remote-Cloud-Services beeinträchtigen. Mit Hilfe von automatisierten Werkzeugen lässt sich sicherstellen, dass die genutzte Anwendungen ordnungsgemäß die vereinbarten QoS-Kennzeichnungen nutzen. Hierbei wird auch überprüft, ob diese Markierungen auch auf einer Hop-by-Hop-Basis (auf der Strecke) zwischen dem Endbenutzer und der Cloud-Anwendung oder Dienst eingehalten werden.

 

Tipp 3: Es sollten traditionelle Tools zur Netzwerküberwachung und Fehlerbehebung genutzt werden

Je nachdem, welches Cloud-Architekturmodell genutzt wird, lassen sich die herkömmliche Werkzeuge zur Analyse und zur Fehlerbehebung im Netzwerk zur Ermittlung von Performance-Problemen nutzen. Wird beispielsweise IaaS (AWS-EC2 oder Microsoft-Azure) genutzt, dann stellen diese Plattformen dem Administrator ausreichend Transparenz zur Verfügung, um die bekannten Werkzeuge (beispielsweise Ping, Traceroute und SNMP) zur Fehleranalyse und Fehlerbehebung im Netzwerks zu nutzen. Es können sogar NetFlow/IPFIX-Daten an einem Collector gestreamt oder innerhalb gewisser Grenzen Paketaufzeichnungen durchgeführt werden. Bei der Fehlersuche in PaaS- oder SaaS-Clouds sind diese Tools jedoch weit weniger nützlich. Daher müssen die Nutzer von PaaS- oder SaaS-Clouds sich am Ende auf die Analyse ihres Dienstleisters verlassen und darauf vertrauen, dass alles richtig funktioniert.

 

Tipp 4: Die integrierten Anwendungsdiagnose- und Bewertungstools nutzen

Viele Unternehmensanwendungen verfügen über integrierte oder ergänzende Diagnosetools, die von IT-Abteilungen zur Fehlerbehebung eingesetzt werden können. Diese Tools liefern oft detaillierte Informationen, die dem Administrator sagen können, ob die fehlende Performance auf ein anwendungsbezogenes Problem oder auf das Netzwerk bzw. die Infrastruktur zurückzuführen ist. Hat man beispielsweise Probleme mit Microsoft-Teams über Office-365, könnte man mit dem Skype-for-Business-Network-Assessment-Tool überprüfen, ob eine ausreichende Ende-zu-Ende-Netzwerk-Performance zur Verfügung steht. Momentan wird dieses Tool hauptsächlich zur Vorprüfung von Teams verwendet und dabei untersucht, ob sich dieses Werkzeug in der Praxis einsetzen lässt. Die gleichen Werkzeuge lassen sich jedoch auch nach der Bereitstellung für die Fehlersuche nutzen.

 

Tipp 5: SD-WAN integrierten Analyse-Werkzeuge

Netzwerkanalysetools und Netzwerkanalyseplattformen sind ein neuer Weg für Administratoren zur Behebung von Problemen im Bereich der Netzwerk- und Anwendungs-Performance. Netzwerkanalyseplattformen sammeln Streaming-Telemetrie- und Netzwerkzustandsinformationen mit verschiedenen Methoden und Protokollen. Die gesammelten Daten werden anschließend mit Hilfe der künstlichen Intelligenz (KI) analysiert. Die Ergebnisse dieser Analysen identifizieren die Bereiche im Unternehmensnetzwerk oder in der Cloud, in denen Probleme mit der Netzwerkleistung auftreten.

Mathias Hein, Consultant, Buchautor, Redakteur

Wird im Unternehmen eine SD-WAN-Architektur auf die Public-Cloud erweitert, können eine Vielzahl von Analysekomponenten genutzt werden. Diese sind in der Regel bereits in diesen Plattformen enthalten. Alternativ bietet auch eine wachsende Anzahl von Anbietern entsprechende Multi-Vendor-Netzwerkanalysetools an, die sich im den Unternehmens-LANs und in Public-Clouds einsetzen lassen. Diese beiden Lösungsansätze sind zwar teuer und anfangs komplizierter zu implementieren, haben aber gezeigt, dass diese die Fehlersuche bei Performance-Problemen und die Ursachenanalyse erheblich beschleunigen können.

#Netzpalaver