Vorgefertigte Referenzdesigns bieten RZ-Betreibern die Möglichkeit, bereits bei der Planung ihrer KI-Infrastruktur auf erprobte Infrastrukturkonzepte zurückgreifen zu können. Gerade in relativ neuen Umgebungen wie der KI-Integration bieten bereits von Herstellern erprobte Planungshilfen eine gute Ausgangsbasis. Die im Schneider-Electric-Designguide Nr. 99 vorgestellten Ansätze sind speziell auf die Anforderungen von KI-Workloads zugeschnitten und wurden in enger Zusammenarbeit mit Nvidia entwickelt. Der Designguide bietet verschiedene anwendungsspezifische Ansätze für die Integration von hochdichten KI-Clustern mit bis zu 70 kW pro Rack bei gleichzeitig zuverlässigem Betrieb und hoher Energieeffizienz.
Flexibilität als Schlüssel zum Erfolg
Eine der besonderen Stärken der Designs aus der Planungshilfe Nr. 99 ist deren Flexibilität. Die aufgeführten Anwendungsfälle berücksichtigen dabei auch den Fakt, dass viele Unternehmen ihre KI-Infrastruktur momentan eher schrittweise in ihre bereits bestehenden Infrastrukturen einbetten möchten. Die Konzepte gehen deshalb detailliert unterschiedliche Retrofit-Szenarien ein. Als Basis für Greenfield-Projekte wird zudem ein optimiertes Design für einen kompletten RZ-Neubau behandelt.
Im Designguide werden insgesamt drei Retrofit-Varianten vorgestellt:
- Ein luftgekühlter KI-Cluster mit bis zu 40 kW pro Rack.
- Ein flüssigkeitsgekühlter Cluster mit Liquid-to-Air CDUs für Leistungen bis 70 kW pro Rack.
- Ein flüssigkeitsgekühlter Cluster mit Liquid-to-Liquid CDUs für maximale Effizienz.
Die Staffelung nach Leistungsanforderung ermöglicht es Betreibern, die für ihre Situation jeweils am besten geeignete Lösung auszuwählen – außerdem ist so sichergestellt, dass sich die Installationen auch später noch erweitern lassen, um mit dem Wachstum der KI-Infrastruktur auch mithalten zu können.
Die größte Herausforderung bei der Integration von KI-Clustern ist die Umstellung der Kühlung. Moderne KI-Beschleuniger wie Nvidia-H100-GPUs erzeugen enorme Wärmemengen auf kleinstem Raum. Konventionelle luftbasierte Kühlsysteme stoßen hier schnell an ihre Grenzen. Das Reference Design 99 setzt daher auf innovative Flüssigkeitskühlkonzepte. Für luftgekühlte Racks bis 40 kW lassen sich noch Uniflair-FWCV-Lüfterwände einsetzen. Sie liefern große Luftmengen bei geringem Energieverbrauch. Für noch höhere Dichten bis 70 kW pro Rack muss jedoch zwingend auf Flüssigkeitskühlung umgestellt werden. Hier bietet der Designansatz von Schneide Electric zwei Optionen:
- Liquid-to-Air CDUs (Coolant-Distribution-Units) ermöglichen eine einfache Integration in luftgekühlte Umgebungen. Sie versorgen die Racks mit Kühlflüssigkeit und geben die Abwärme dann an die Raumluft ab. Diese Lösung eignet sich ideal für Retrofit-Szenarien.
- Noch effizienter arbeiten Liquid-to-Liquid CDUs. Sie übertragen die Abwärme direkt an einen separaten Wasserkreislauf. Das ermöglicht deutlich höhere Wassertemperaturen und maximiert so das Potenzial für den Einsatz von Freikühllösungen.
Redundanz und Verfügbarkeit auf Tier-III-Niveau
Trotz der extremen Leistungsdichten erfüllt das Reference-Design 99 grundsätzlich alle technischen Anforderungen an ein Tier-III-Rechenzentrum, denn es bietet durchgängige N+1-Redundanzen für alle kritischen Systeme. Die Stromversorgung der IT-Lasten erfolgt sogar dreifach redundant über drei 2,5 MW Versorgungsstränge. Jeder Strang besteht dabei aus einem 4000-A-Okken-Hauptschaltschrank, der jeweils zwei Schneider-Electric-Galaxy-VX-USVs mit 1250 kW Leistung und einer Überbrückungszeit von 5 Minuten versorgt. Die USV-Anlagen speisen wiederum ein 4000-A-Okken-Verteilsystem. Am Downstream versorgen Canalis Stromschienen die IT-Racks mit 2N Redundanz. Auch die Kühlung ist redundant ausgelegt. Die Chiller arbeiten in N+1-Konfiguration, ebenso wie die Lüfterwände in den IT-Räumen. Ein thermischer Speicher mit 28 m³ Volumen puffert Ausfälle oder Transferzeiten für bis zu 5 Minuten. Diese durchdachte Redundanzstrategie gewährleistet eine exzellente Verfügbarkeit bei der Bereitstellung von kritischen KI-Workloads, gleichzeitig ermöglicht das Konzept den Aufbau einer wartungsfreundlichen RZ-Infrastruktur inklusive Concurrent-Maintainability (gleichzeitige Wartbarkeit).
Energieeffizienz bei extremen Leistungsdichten
Angesichts der hohen Leistungsdichten könnte man vermuten, dass die Energieeffizienz leidet. Doch das Gegenteil ist der Fall. Das Reference-Design 99 erreicht beeindruckende PUE-Werte von 1,15 bis 1,17 in Paris bzw. 1,25 bis 1,27 in Singapur bei Volllast.
Möglich wird dies durch den konsequenten Einsatz effizienter Komponenten und innovativer Kühlkonzepte. Die Hochtemperatur-Chiller maximieren die Freikühlung. Lüfterwände mit EC-Motoren minimieren den Energieverbrauch für die Luftförderung. Und die direkte Flüssigkeitskühlung der Hochleistungs-Racks reduziert die Kühlarbeit auf ein Minimum. Zusätzlich ermöglicht die Integration mit Ecostruxure-IT-Expert eine kontinuierliche Optimierung des Betriebs. Das senkt nicht nur die Betriebskosten, sondern reduziert auch den CO2-Fußabdruck des Rechenzentrums.
Skalierbarkeit und Zukunftssicherheit
Ein weiterer Vorteil des Reference-Design 99 ist seine Skalierbarkeit. Es lässt sich flexibel an wachsende Anforderungen anpassen. Die IT-Kapazität kann von 1760 kW bis auf 3770 kW erweitert werden. Dabei sind Rack-Dichten von bis zu 70 kW möglich. Auch technologisch ist das Design zukunftssicher. Es unterstützt sowohl luftgekühlte als auch flüssigkeitsgekühlte Systeme. Die Kühlinfrastruktur ist bereits für sehr hohe Wassertemperaturen ausgelegt. Das schafft Reserven für künftige, noch leistungsfähigere KI-Hardware der nächsten Generation. Die modulare Struktur des Designs erlaubt zudem eine schrittweise Erweiterung. So können Betreiber ihre Investitionen optimal an den tatsächlichen Bedarf anpassen.
Zuverlässige Planung und schnelle Umsetzung
Einer der größten Vorteile von Referenzdesigns wie dem liegt in der vereinfachten Planung. Betreiber und Planer müssen das Rad nicht neu erfinden, sondern können auf ein validiertes und gut dokumentiertes Konzept zurückgreifen. Das spart nicht nur wertvolle Zeit bei der Planung. Es reduziert auch Risiken, da alle Komponenten aufeinander abgestimmt sind. Potenzielle Probleme wurden bereits in der Entwicklungsphase identifiziert und gelöst. Schneider Electric stellt zu jedem Referenzdesign eine umfangreiche technische Dokumentation bereit. Dazu gehören CAD-Zeichnungen, Bodenpläne, Stücklisten und 3D-Visualisierungen. Das erleichtert die Detailplanung und Umsetzung enorm. Zusätzlich bietet Schneider Electric Unterstützung durch erfahrene Spezialisten. Sie helfen bei der Anpassung des Designs an individuelle Anforderungen und begleiten die Umsetzung. Das minimiert Risiken und beschleunigt die Realisierung.
Die Integration von KI-Workloads stellt Rechenzentren vor enorme Herausforderungen. Extreme Leistungsdichten, komplexe Kühlaufgaben und hohe Anforderungen an Verfügbarkeit und Effizienz müssen unter einen Hut gebracht werden. Referenzdesigns wie das Ecostruxure-Reference-Design 99 bieten hier einen wertvollen Lösungsansatz. Sie kombinieren innovative Technologien zu einem ganzheitlichen, validierten Konzept. Das vereinfacht die Planung, reduziert Risiken und beschleunigt die Umsetzung. Gleichzeitig bleiben die Designs flexibel genug, um sie an individuelle Anforderungen anzupassen. Ob Retrofit oder Neubau, ob luftgekühlt oder mit Flüssigkeitskühlung – für jedes Szenario gibt es eine passende Lösung. Für Rechenzentrumsbetreiber, die sich für die KI-Ära rüsten wollen, sind solche Referenzdesigns daher eine äußerst attraktive Option. Sie ermöglichen es, von den Erfahrungen führender Experten zu profitieren und gleichzeitig eigene Anforderungen umzusetzen. So lässt sich die Integration von KI-Workloads sicher, effizient und zukunftsorientiert gestalten.
Von Rainer Weigle, Schneider Electric
#SchneiderElectric