Stromversorgung und Klimatisierung dürfen in KI-Rechenzentren nicht länger als Silos betrachtet werden

Im Interview erläutert George Hannah, Vice President Thermal Systems and Advanced Development bei Vertiv, wie ein integrierter Ansatz für Klimatisierung und Stromversorgung Rechenzentrumsbetreiber dabei unterstützen kann, die Anforderungen von KI-Systemen effizienter umzusetzen und besser planbar zu machen.

 

Was sind momentan die größten Herausforderungen bei der Integration von KI-Workloads?

Die Herausforderungen liegen zum einen in der Geschwindigkeit, mit der sich der Rechenzentrumsmarkt aktuell in Richtung KI bewegt, und zum anderen in der Komplexität, die aus steigender Leistungsdichte und enger werdenden Auslegungsgrenzen resultiert. GPU-Cluster treiben nicht nur die Leistungsdichte im Rack nach oben, sie bringen auch Lastprofile ins Rechenzentrum ein, die sich deutlich von klassischer IT unterscheiden. Dazu kommt, dass diese Lasten je nach Betriebsmodus unterschiedlich aussehen.

 

Worin unterscheiden sich diese Lasten und was bedeutet das für Stromversorgung und Klimatisierung?

Beim Training von KI-Systemen sehen wir häufig sehr hohe und dynamische Leistungsaufnahmen. Andererseits ist der Inferenzbetrieb, also die Bereitstellung von KI-Services und Chatbots, stärker nutzungs- und ereignisgetrieben und weist deshalb stärkere Schwankungen auf. Diese Dynamik wirkt sich unmittelbar auf den Strompfad aus, etwa über schnelle Lastwechsel, Transienten und harmonische Effekte, und zeigt sich in der Rechenzentrumsfläche dann als thermische Spitzen und Hotspots. Wenn Stromversorgung und Klimatisierung nicht als zusammenhängendes System geplant und geregelt werden, kann das zu Temperaturspitzen, unnötiger Überbereitstellung oder im ungünstigsten Fall sogar zu Lastabwurf beziehungsweise zu einer geregelten Drosselung der Performance führen.

 

Also geht es heute nicht mehr allein um mehr Kühlung?

Genau, das ist ein zentrales Missverständnis. Viele betrachten Stromversorgung und Klimatisierung noch immer als separate Infrastrukturelemente. Die Stromversorgung ist ein Thema für die Elektrotechnik, der thermische Pfad ein Thema für die Planung der technischen Gebäudeausrüstung. Diese Silo-Logik funktioniert bei KI-Rechenzentren nicht mehr. Stromversorgung und Klimatisierung müssen als ein verbundenes Ökosystem betrachtet und gesteuert werden. Das gilt für die sichere Stromversorgung genauso wie für die Chipkühlung, die Kaltwassererzeugung, das Airflow-Management und die Wärmeabfuhr.

 

Sie sprechen vom „thermischen Pfad“. Was genau verbirgt sich dahinter?

Der thermische Pfad ist der komplette Weg, den die Wärmeenergie durch die RZ-Infrastruktur nimmt. Er beginnt direkt an der Wärmequelle, also auf dem Silizium selbst, und endet bei der Wärmeabfuhr in die Außenluft oder bei der Übergabe an eine Wärmerückgewinnungsanlage. In der Vergangenheit haben wir diesen Pfad oft in einzelne Etappen unterteilt. Der Chip arbeitet innerhalb der Rechenzentrumsfläche, die Luft erwärmt sich, Kühleinheiten kühlen die Luft ab und am Rande des Gebäudes wird die Wärme wieder abgeführt. Dieser Ansatz kann zu einem indirekten, schwer zu kontrollierenden Systempfad mit vielen Übergabepunkten führen, die jeweils zusätzliche Übertragungsverluste sowie Herausforderungen bei der Beherrschung der thermischen Trägheit in das System einbringen. Mit Liquid Cooling lässt sich der thermische Pfad deutlich direkter, effizienter und präziser gestalten, weil Flüssigkeiten Wärme wesentlich besser aufnehmen und transportieren können als Luft. Dadurch kann die Verlustleistung näher an der Quelle erfasst und mit vergleichsweise geringem Volumenstrom sowie stabilen Temperaturfenstern abgeführt werden. Praktisch erfolgt das entweder über Direct-to-Chip-Cooling oder über Immersionskühlung. Hier werden die kompletten Server in eine dielektrische Flüssigkeit getaucht. In beiden Fällen entsteht ein direkter, gut regelbarer thermischer Pfad mit Vorlauftemperaturen im Bereich von 50 bis 52 Grad Celsius. Über eine Coolant Distribution Unit, kurz CDU, lässt sich die Abwärme sauber an den Gebäudekreislauf übergeben und anschließend zum Beispiel für die Wärmerückgewinnung weiterverwenden.

 

Das klingt nach einer nicht unerheblichen Neugestaltung der RZ-Infrastruktur. Welche Komponenten sind dabei besonders entscheidend?

Zunächst ist die direkte Wärmekopplung auf Rack-Ebene essenziell. Direct-to-Chip-Lösungen mit modernen Coolant-Verteilungsarchitekturen ermöglichen eine präzise und skalierbare Wärmeabfuhr, die sich eng an die tatsächlichen Leistungsanforderungen von KI-Systemen anpassen lässt. Dafür kommen auch neue CDU-Modelle zum Einsatz, je nach Layout als In-Rack- oder In-Row-Variante, die sowohl Liquid-to-Air- als auch Liquid-to-Liquid-Kreisläufe unterstützen können. Darüber hinaus sind Redundanz und Zuverlässigkeit entscheidend: Wir trennen den IT-Kreislauf physisch vom Kreislauf der Gebäudetechnik, was die Betriebssicherheit erhöht. Ebenso wichtig sind integriertes Monitoring, die Überwachung der Fluidqualität und passende Filtration, da alle Ebenen im Betrieb reibungslos zusammenspielen müssen. Auf der Raumebene gibt es verschiedene Luftkühlungsoptionen, etwa In-Row-Kühlung für mittlere Leistungsdichten, Rear-Door-Wärmeaustauscher als pragmatischer Schritt im Retrofit sowie Thermal-Wall-, CRAH- und CRAC-Unit-Lösungen. Welche Architektur im konkreten Fall optimal ist, hängt letztlich von der Anwendung und den Randbedingungen des Standorts ab.

 

Wie viel Leistungsdichte können diese Systeme aktuell bewältigen?

Das kommt ganz auf den gewählten Ansatz an und darauf, welche Bezugsgröße man betrachtet. Bei Direct-to-Chip-Lösungen mit modernen CDU-Plattformen können Betreiber modular vorgehen: Sie starten mit Pods mit geringerer Leistungsdichte und skalieren dann schrittweise bis zu Cluster-Größen von 2300 kW oder mehr, ohne dabei hinterher die kritische digitale Infrastruktur neu auslegen zu müssen.

 

Immer mehr Betreiber investieren auch in höhere Spannungen für die Stromversorgung. Wie passt das zu einem integrierten Ansatz bei der RZ-Klimatisierung?

Das ist eine komplementäre Entwicklung, weil Effizienz im kritischen Strompfad auch ein Kühlungsthema ist. Viele Rechenzentren arbeiten heute noch mit hybrider Wechselstrom-Gleichstrom-Verteilung vom Netz bis zum IT-Rack, oft mit drei bis vier Umwandlungsstufen, von denen jede dieser Stufen Verluste verursacht, die am Ende als zusätzliche Abwärme in der Infrastruktur landen. Setzen Betreiber auf höhere Gleichspannungen in der Stromverteilung, zum Beispiel in Richtung 800 Volt Gleichspannung, reduzieren sich Stromstärken und Leitungsverluste. Auch der Kupfereinsatz sowie die Anzahl der Umwandlungsstufen lassen sich reduzieren. Insgesamt bedeutet das: Weniger Verluste werden in Wärme umgewandelt. Dies entlastet unmittelbar die thermische Kette und erweitert die Betriebsspielräume für eine effiziente RZ-Kühlung, während gleichzeitig eine höher verdichtete Stromverteilungsarchitektur ermöglicht wird.

 

Inwieweit sollten Datacenter-Betreiber versuchen, ihre Betriebsabläufe neu zu denken, um integrierte Systempfade optimal zu betreiben?

Das knüpft direkt daran an, dass Stromversorgung und Kühlung gemeinsam gedacht und geführt werden müssen. KI-Lasten ändern sich teils sehr schnell, und diese Dynamik sieht man elektrisch wie thermisch. Deshalb braucht es eine gemeinsame, datenbasierte Betriebs- und Regelungsstrategie über die gesamte Kette, von der Wärmeaufnahme am Rack bis zur Wärmeabfuhr im Technikbereich, damit das Gesamtsystem wirksam auf Laständerungen reagieren kann. Darüber hinaus müssen elektrische und thermische Puffersysteme sorgfältig ausgelegt werden, um reaktive und stabile Regelungsstrategien zu unterstützen.

Dazu gehören durchgängige Mess- und Monitoring-Konzepte, automatisierte Anpassungen und vorausschauende Analysen. Digitale Zwillinge werden dabei immer wichtiger, da sie Betreiber und Planer unterstützen können, die RZ-Infrastruktur schon vor dem Bau virtuell nachzubilden, Varianten und Störfälle zu testen sowie Design und Betrieb besser in Einklang zu bringen. Im laufenden Betrieb helfen sie, die Wechselwirkungen zwischen IT-Last, Stromversorgung und Kühlung transparenter zu machen und Optimierungsschritte schneller und risikoärmer umzusetzen.

 

Welche wirtschaftlichen Überlegungen sprechen für den Aufbau von integrierten Systempfaden im Rechenzentrum?

Energieeffizienz ist natürlich ein zentrales Argument, aber ich wäre vorsichtig mit konkreten PUE (Power Usage Effectiveness)-Zielwerten, weil der PUE stark von Standort, Klimadaten, Kühlarchitektur, Temperaturfenstern und Auslastung abhängt. Sinnvoller ist die Aussage, dass ein integriertes System aus Stromversorgung und Kühlung, kombiniert mit direkter Flüssigkühlung und effizienteren Stromarchitekturen, Umwandlungsverluste reduziert und damit auch den Wärmeeintrag senkt, was die Voraussetzungen für bessere Effizienzkennzahlen schafft. Zudem unterstützt ein System, das die höchstmögliche Rechenleistung bei geringstem Energieeinsatz bereitstellt, das kommerzielle Geschäftsmodell erheblich. Darüber hinaus geht es aus Betreibersicht um Investitionsschutz: Modulare Konzepte ermöglichen es, Kapazitäten näher am realen Lastprofil zu planen und anschließend schrittweise auszubauen, statt pauschal zu überdimensionieren. Das verbessert die Investitionskurve, reduziert gebundenes Kapital und macht einzelne Ausbauphasen kalkulierbarer. Auch die Geschwindigkeit beim Ausbau ist in vielen Projekten ein handfester Business Case. Vorgefertigte, standardisierte Infrastrukturbausteine bringen die Stromversorgung, Kühlung und IT-Integration zusammen. Sie verkürzen Planungs- und Inbetriebnahmezeiten, reduzieren Integrationsrisiken und sorgen dafür, dass Kapazität früher verfügbar ist, was sich direkt auf Time-to-Market und Wettbewerbsfähigkeit von Betreibern auswirkt.

 

Sie haben erwähnt, dass diese Systeme auch auf hohe Ausfallsicherheit ausgelegt sind. Was bedeutet das konkret?

Gemeint ist damit nicht ein einzelnes Gerät, sondern vielmehr die integrierte Infrastruktur als Gesamtsystem, also das Zusammenspiel aus Stromversorgung und Kühlung vom Rack bis in die Technikbereiche. In klassischen Rechenzentren kann man den Ausfall einzelner Komponenten häufig über Mehrfachsysteme und Überdimensionierung abfangen. In KI-Umgebungen mit sehr hoher Leistungsdichte ist der Puffer dafür deutlich kleiner. Wenn dort ein Teil der Kühlung ausfällt und lokale Hotspots entstehen, fangen GPU-Beschleuniger sehr schnell an, den Betrieb zu drosseln, oder schalten im Extremfall sogar komplett ab. Deshalb werden Redundanzfunktionen gezielt in die kritischen Funktionen eingebaut, zum Beispiel über redundant ausgelegte Pumpen in der CDU, redundante Leitungsführung und klar getrennte Kreisläufe zwischen IT und Gebäudetechnik. Ergänzend kommt eine intelligente Regelungsschicht hinzu, die Abweichungen in Echtzeit erkennt und automatisch gegensteuert, etwa indem sie Volumenströme anpasst, kritische Bereiche priorisiert oder vorhandene Reserven koordiniert zuschaltet. Hohe Ausfallsicherheit bedeutet damit, dass der Systempfad kontrolliert reagiert, lange bevor eine Störung die Performance oder Verfügbarkeit beeinträchtigt.

 

Was müssen Datacenter-Planer heute mitbringen, um für KI bereit zu sein?

Stromversorgung, USV und Kühlung müssen konsequenter als zusammenhängendes System geplant und betrieben werden, weil die Lastdynamik von KI sich gleichzeitig im kritischen Strompfad und im thermischen Pfad zeigt. Das heißt auch, dass moderne USV-Konzepte und das Energiemanagement auf KI-Lastprofile und die passende Steuerungs- und Regelungslogik ausgelegt sein müssen, damit Stromversorgung und Kühlung im Betrieb abgestimmt reagieren können und keine negativen Wechselwirkungen entstehen. Beispielsweise durch die Kopplung von USV-Ausgangssignalen mit der Regelung von Pumpen und Ventilatoren. Gleichzeitig gibt es keine One-size-fits-all-Standardarchitektur mehr. Die richtige Kombination aus Luft- und Flüssigkühlung sowie die Ausbauphasen hängen ganz stark von Lastprofil, Standort, Energiekosten und Zeitplan ab. Ausschlaggebend ist, die Schnittstellen zwischen IT und Gebäudetechnik früh sauber zu definieren und Temperaturfenster, Hydraulik, Übergabepunkte sowie Regelungskonzepte mit einzubeziehen, weil sich die spätere Betriebsstabilität genau dort entscheidet. Die besten Technologielösungen berücksichtigen all diese Aspekte und sind von Grund auf zukunftssicher ausgelegt, um höhere Leistungsdichten, dynamische Lastprofile und stark variierende Temperatur-Setpoints zu bewältigen.

#Vertiv