Aufbau eines georedundanten Datacenters

Die Schwarz Gruppe aus Neckarsulm als spannendes Beispiel für den Aufbau eines georedundantes Rechenzentrums: So erstellte das international führende Handelsunternehmen eine DR-Strategie mit Continuous-Data-Protection, um seine kritische virtuelle Infrastruktur auch im direkten Umfeld eines Atommeilers über eine lange Distanz gegen regionale Katastrophen abzusichern.

Viele Unternehmen haben in den letzten Jahren in Hochverfügbarkeitslösungen investiert, um die IT-Dienste ihrer Organisationen stets verfügbar zu halten. In der Praxis geschieht dies im Allgemeinen immer noch oft über eine synchrone Spiegelung zwischen zwei oder mehr Clustern innerhalb einer Entfernung von bis zu 50 Kilometern. Im Falle eines Ausfalls von Komponenten oder eines Standorts, kann die virtuelle Infrastruktur – und insbesondere die darin kritischen Workloads – von einem anderen Standort wieder gestartet werden. Dies funktioniert im Prinzip auch für den Disaster-Recovery-Fall, wenn besondere Umstände (wie etwa Naturkatastrophen) dazu führen, dass ein Rechenzentrum teilweise oder gar vollständig ausfällt. Die Georedundanz für einen kompletten Standort bereitstellen zu können, bedeutet technologisch die höchste Stufe der Widerstandsfähigkeit innerhalb einer BC/DR-Strategie. Dies bedeutet, dass eine Organisation ihre komplette virtuelle Infrastruktur auch gegen regionale oder nationale Katastrophen absichern kann. In der Praxis kann sie diese im Notfall in einem DR-Rechenzentrum in mehr als 200 Kilometern Entfernung wiederherstellen. Was einfach klingt, ist in der Praxis mit traditionellen Technologien kaum umzusetzen. Die Schwarz-Gruppe aus Neckarsulm hat jüngst ein neues georedundantes Rechenzentrum in Dienst gestellt. Dabei kamen moderne Technologien zum Einsatz, die als Referenzarchitektur dienen können.

Metrocluster ist potenzieller „Single Point of Failure“

Die Schwarz-Gruppe hat ihr Hauptquartier im Baden-Württembergischen Neckarsulm, nur zwanzig Kilometer vom in Obrigheim ansässigen Kernkraftwerk Neckarwestheim entfernt. Rund um den Hauptsitz betreibt das Unternehmen einen Metrocluster aus mehreren Rechenzentren, um Hochverfügbarkeit (HA) ihrer virtuellen Infrastruktur zu gewährleisten. Der virtualisierte Footprint besteht aus mehr als 40.000 VMs, von denen 5.000 als unternehmenskritisch gelten und globale IT-Dienste für alle Einrichtungen des Konzerns bereitstellen. Die geographische Zentralisierung dieser Produktions-Workloads machte die Struktur jedoch zu einem potenziellen Single Point of Failure. Im Falle eines Störfalls im Kernkraftwerk wäre nicht nur die Firmenzentrale betroffen, sondern potenziell auch alle Rechenzentren innerhalb des Metrocluster-Verbundes. Im Falle einer regionalen Katastrophe, wie etwa eines Erdbebens, einer Überschwemmung oder eines Störfalls im nahen Atommeiler, könnte der gesamte Konzern in Mitleidenschaft gezogen werden. So könnten beispielsweise die weltweit 12.900 Filialen beeinträchtigt werden. Um dieses Risiko zu eliminieren, beauftragte die Schwarz-Gruppe ihre interne IT bereits 2015 damit, den potenziellen Single Point of Failure des Metroclusters zu beseitigen.

Mindestabstand der Standorte von 200 Kilometern

Hierfür sollte ein neues, georedundantes DR-Rechenzentrum errichtet werden, das im Falle einer regionalen Katastrophe den Betrieb aller kritischen Workloads übernehmen könnte. Das Team machte sich in der Folge in einem Radius von 400 Kilometern auf die Suche nach einem geeigneten Standort für ein neues DR-Rechenzentrum. Die Entfernung zwischen dem neuen Rechenzentrum und dem Metrocluster am Hauptquartier in Neckarsulm sollte mindestens 200 Kilometer betragen. Dies entspricht auch der Empfehlung des BSI, das den Mindestabstand zwischen zwei georedundanten Rechenzentren Anfang 2020 von ehemals nur fünf auf 200 Kilometer angehoben hatte. Am Ende der Suche und Planung entschied sich die Schwarz-IT aus zahlreichen Optionen dafür, ein komplett neues DR-Rechenzentrum aufzubauen, das im Ernstfall die kritischen Workloads übernehmen könnte. Errichtet wurde es auf dem ehemaligen Gelände eines stillgelegten Kohlekraftwerks in Riedersbach bei Salzburg. Neben der ausreichenden Entfernung von Neckarsulm(circa 300 Kilometer Luftlinie) bot der Standort optimale Voraussetzungen für den Aufbau eines Rechenzentrums: Sichere Stromversorgung mit günstigen Preisen, direkten Zugriff auf Kühlwasser und eine schnelle Glasfaserverbindung, die zwei Standleitungen mit 40 GBit/s möglich machte.

Distanz bedingt Wechsel auf asynchrone Replikation und CDP

Mit dem neuen DR-Rechenzentrum war der erste wichtige Baustein der neuen DR-Strategie gelegt. Ein weiterer wichtiger Baustein war die Wahl der Replikationslösung, denn bei einer Entfernung von mehr als 50 Kilometern ist synchrone Replikation, wie sie innerhalb des Metroclusters genutzt wird, aufgrund der Latenz nicht mehr möglich – insbesondere bei einer Entfernung von über 300 Kilometern. Prinzipiell gibt es mehrere potenzielle Technologien auf dem Markt, um Georedundanz zu erreichen. Hardwarebasierte Lösungen auf Storageebene wurden als Alternativen von der Schwarz-IT jedoch sehr schnell ausgeschlossen, da auf der Ebene des Hypervisors repliziert werden sollte. Auch die Lösung zur Absicherung von Standorten vom Anbieter der genutzten Virtualisierungsplattform erwies sich als nicht ausreichend zur Erfüllung der gesetzten Anforderungen. Die Möglichkeit klassische Snapshots zu replizieren war weder zeitgemäß noch mit der Größe der Umgebung und der limitierten Bandbreite vereinbar. Um die neue georedundante DR-Strategie wie gewünscht umsetzen zu können, entschied sich die Schwarz-IT dafür, asynchron zu replizieren. Anstelle einer Replikation von Snapshots in  regelmäßigen Intervallen sollten kontinuierlich Blöcke repliziert werden. Die Schwarz-Gruppe entschied sich nach reiflicher Überlegung dazu, eine spezielle Softwarelösung einzusetzen, deren Replikation auf Continuous-Data-Protection (CDP) aufbaut und die auf der Hypervisorebene abläuft.

Streamen von Blöcken über CDP ist die sinnvollste Methode

Die Replikation einzelner Blöcke mit einer CDP-Engine stellte sich im Vergleich mit der regelmäßigen, klassischen Replikation von Snapshots als deutlich sinnvoller heraus. Eine auf Snapshots basierte Replikation ist selbst bei kleineren Umgebungen für BC/DR generell kaum noch möglich – und erst recht nicht bei der Größe der zu replizierenden Umgebung der Schwarz Gruppe. Das kontinuierliche Streamen von Blöcken über eine CDP-Engine war de facto die technologisch einzige sinnvolle Methode das sehr große Replikations-Delta der Schwarz-Gruppe über eine Entfernung von 300 Kilometer zu replizieren. Die Schwarz-Gruppe testete die von Ihnen bevorzugte Lösung im Rahmen eines PoCs selbst und startete den produktiven Einsatz der neuen Struktur dann Ende 2019. Seitdem bietet die Lösung Disaster-Recovery für alle kritischen VMs der Gruppe mit sehr kurzen RTOs und RPOs. Die Replikation über die CDP-Engine setzt alle 5 bis 10 Sekunden Checkpoints, was bedeutet, dass alle VMs seitdem mit einem RPO von nur 5 bis 10 Sekunden wiederhergestellt werden können. Die Wiederherstellbarkeit einzelner VMs kann über die Plattform mit nur wenigen Mausklicks auch getestet werden, sollte ein solcher Test gegenüber der Revisionsabteilung notwendig sein.

Fazit: CDP hilft, den Single-Point-of Failure zu eliminieren

Johannes Streibich, Zerto

Der Einsatz einer CDP-Lösung zur Absicherung georedundanter virtueller Infrastrukturen ermöglichte die neue DR-Strategie der Schwarz-Gruppe, da diese ohne Latenzprobleme eine Replikation auf Hypervisor-Ebene über mehr als 300 Kilometern bietet. So schaffte es die Schwarz-Gruppe ihrem bestehenden HA-Layer eine weitere Redundanzebene hinzuzufügen und eliminierte den möglichen Single Point of Failure. Alle produktiven Workloads sind seitdem noch besser  als bisher abgesichert – gegen einen nuklearen Zwischenfall, ein Erdbeben, eine Überschwemmung oder sogar eine Pandemie mit regionaler oder nationaler Ausgangssperre.

Von Johannes Streibich, Zerto