Als Akamai, Facebook und Amazon das Licht ausging

Für viele Unternehmen bedeuten Ausfallzeiten Umsatz- und Reputationsverluste sowie eine mögliche Ressourcenverschwendung, um auf Vorfälle zu reagieren. Dabei ist es möglich, die Auswirkungen solcher Vorfälle zu umgehen oder zu minimieren, indem man aus den Erfahrungen anderer lernt.

Das Network-Intelligence-Unternehmen Cisco-Thousandeyes hat alle derartigen Störungen beobachtet und analysiert. Grund genug, die weitreichendsten und bedeutendsten Störungen aus dem Jahr 2021 – als Akamai, Facebook und Amazon das Licht ausging – zu rekapitulieren:

 

Amazon Web Services – 15. Dezember 2021

Ein kurzer Ausfall von Amazon Web Services (AWS) betraf Dienste und Anwendungen in den Regionen US-WEST-1 und US-WEST-2. Der Vorfall dauerte etwa 45 Minuten, und trat zu Beginn des Arbeitstages an der Westküste der USA auf. So wurde der Zugang zu Authentifizierungs- und Kollaborationsplattformen, die auf AWS angewiesen sind, unterbrochen – darunter Okta, Workday und Slack. AWS bestätigte die Beobachtung von Thousandeyes, dass Probleme mit der Netzwerkkonnektivität aufgrund von durch Überlastung verursachten Datenverlusten dafür verantwortlich waren.

 

Amazon Web Services – 7. Dezember 2021

Ebenfalls bei AWS, dem größten Anbieter von Cloud-Computing-Diensten in den USA, kam es Anfang Dezember zu einem noch größeren Ausfall. Die Unterbrechung dauerte über eine Stunde und verursachte Probleme, die sich auf die Benutzer mehrerer wichtiger Dienste auswirkten, darunter AWS-Console, Amazon-Prime-Now und Amazon-Pharmacy. Auch viele Dienste, die auf AWS angewiesen sind, wie IoT-Geräte für Verbraucher wie Roomba und Ring, waren davon betroffen. Große Streaming-Dienste wie Disney+ und Netflix waren ebenfalls nicht verfügbar.

Dieser Ausfall hatte vor allem erhebliche Auswirkungen auf die Anwendungen und Dienste von Unternehmenskunden. So mussten viele besorgte IT-Spezialisten in Unternehmen mehr als eine Stunde lang darauf warten, dass die Status-Seite des Anbieters die Hintergründe des Vorfalls anzeigte.

 

Facebook – 4. Oktober 2021

Am 4. Oktober konnten die Dienste von Facebook, Instagram und Whatsapp nicht mehr abgerufen werden. Der Ausfall betraf hunderte Millionen, wenn nicht Milliarden von Nutzern weltweit. Zusätzlich gab es Meldungen über Probleme mit Dienstanbietern, die aufgrund des hohen Internetverkehrsaufkommens von Facebook ebenfalls betroffen waren.

Der reguläre Betrieb konnte für alle drei Messaging-Plattformen sieben Stunden später wiederhergestellt werden. Verständlicherweise wirft dieser Ausfall einige Fragen auf. Wie konnte es dazu kommen? Wieso dauerte es bis zur Wiederherstellung der Dienste durch das erfahrene Netzwerkbetriebsteam des Social-Media-Unternehmens so lange?

Der Ausfall von Facebook stellte in Bezug auf Umfang und Dauer eine erhebliche Störung dar, die auch monetäre Auswirkungen hatte: Laut Forbes soll der Ausfall zu Umsatzeinbußen in Höhe von 60 bis 100 Millionen US-Dollar und einem Rückgang der Marktkapitalisierung um 47,3 Milliarden US-Dollar geführt haben.

 

Akamai DNS – 22. Juli 2021

Ende Juli kam es bei Akamai zu einem weitreichenden Ausfall. Dieser führte dazu, dass Nutzer weltweit die Websites von Kunden des Unternehmens nicht mehr erreichen konnten. Der Ausfall dauerte über eine Stunde und hatte erhebliche Auswirkungen auf viele Websites und Anwendungen, die unter anderem im Bankwesen, Flugverkehr und im Gaming-Bereich genutzt werden.

Akamai-DNS ist ein kritischer Dienst, der Nutzer zum CDN-Edge von Akamai weiterleitet. Nutzer, die versuchten, von Akamai gehostete Webseiten aufzurufen, erhielten während des Ausfalls eine Fehlermeldung. Der Grund: Die von ihnen jeweils angeforderte Domain konnte nicht in eine gültige IP-Adresse aufgelöst werden.

Der Ausfall war von besonderer Bedeutung, da er nicht nur Akamai-Kunden betraf, sondern auch diejenigen, die auf Dienste von Akamai angewiesen sind. Unternehmen, die einen Multi-CDN-Ansatz verwenden, wie Amazon, blieben von den Auswirkungen dieses Vorfalls weitgehend verschont.

 

Akamai Prolexic Routed – 16. Juni 2021

Für australische Internetnutzer und diejenigen, die in der asiatisch-pazifischen Region leben, war der 16. Juni 2021 ein besonders frustrierender Tag. Bei Prolexic-Routed, dem DDoS-Abwehrdienst von Akamai, kam es zu einer Serviceunterbrechung, durch die die Webseiten einiger Kunden für unterschiedlich lange Zeit nicht erreichbar waren.

Um seine Kunden vor DDoS-Angriffen zu schützen, bereinigt Prolexic-Routed den eingehenden Datenverkehr. Dazu werden (mit Erlaubnis) Kundenpräfixe anzeigt, bevor eingehende Anfragen an das jeweilige Netzwerk weitergeleitet werden. Die Ursache für diesen Vorfall war eine versehentliche Überschreitung des Limits der Routing-Tabelle.

Der Ausfall dauerte über vier Stunden, wobei die stärksten Auswirkungen in den ersten Minuten auftraten. Verschiedene Dienste waren je nach Standort, Tageszeit und zuvor erstellten Backup-Plänen unterschiedlich betroffen. Bestimmte Dienste hatten Failover-Systeme, die es ihnen ermöglichten, die Konnektivität wiederherzustellen – in einigen Fällen sogar innerhalb weniger Minuten.

 

Fastly – 10. Juni 2021

Im Juni kam es bei Fastly zu einem massiven Ausfall, von dem weltweit 85 Prozent der Dienste betroffen waren. Ein versteckter Softwarefehler löste den einstündigen Ausfall aus, als ein Kunde ein Routine-Update seiner CDN-Konfiguration durchführte. Wer versuchte, die betroffenen Websites oder Anwendungen zu erreichen, erhielt wahrscheinlich die Fehlermeldung 501 – Service Unavailable.

Der Ausfall betraf viele große Websites, darunter auch Reddit oder das Webangebot der New York Times. Sogar Amazon und eBay waren stellenweise betroffen, weil diese ebenfalls auf die Dienste von Fastly zurückgreifen. Erwähnenswert ist, dass die Auswirkungen für jeden dieser Medien- und E-Commerce-Anbieter sehr unterschiedlich waren, obwohl die Ursache für den Ausfall dieselbe war.

 

Maßnahmen für ein resilienteres Jahr 2022

Aus den Ausfällen von 2021 können wir einige grundlegende Lehren ziehen, darunter die folgenden:

  • Greifen Sie auf praktische Redundanzkonzepte zurück. Erwägen Sie die Nutzung von mehr als einem Anbieter für kritische Dienste wie CDN und DNS.
  • Analysieren Sie die Funktionsweise ihrer Servicebereitstellungskette. Diese kann sich auf mehrere Abhängigkeiten stützen. Daher ist es wichtig, alle Abhängigkeiten zu kennen, auch die indirekten oder „versteckten“ sowie die externen Dienste.
  • Gewährleisten Sie eine proaktive Visibilität in ihren Standorte, Anwendungen und wichtigsten Abhängigkeiten. Auf diese Weise können Sie am effizientesten feststellen, wann ein Serviceproblem aufgetreten ist und welche Strategie Sie anwenden müssen, um Störfälle mit minimalen Auswirkungen auf Ihre Nutzer zu beheben.
  • Erstellen Sie ein Notfallkonzept. Selbst wenn Sie bewährte Verfahren und redundante Service-Architekturen implementiert haben, kann es immer noch zu unvorhergesehenen Ausfällen kommen. Mit einem Backup-Plan für Ausfallszenarien können Sie Ausfallzeiten und Leistungseinbußen bei Ihren Diensten minimieren.

Die Ausfälle 2021 zeigen eindrücklich, dass selbst die modernste Infrastruktur durchaus von Fehlern und Ausfällen betroffen sein kann. Auch wenn Ausfälle unvermeidlich sind, sollten Sie bestimmte Maßnahmen implementiert haben, um diese schadlos zu überstehen. IT-Teams können durch die Analysen und Erkenntnisse der größten Ausfälle in diesem Jahr bessere Prozesse, Redundanzen und Failover-Systeme entwickeln, um die zu erwartenden Ausfallzeiten im Jahr 2022 zu kontrollieren und zu minimieren.

#CiscoThousandeyes