Der anhaltende Trend hin zu immer mehr Anwendungen im Bereich der generativen KI erfordert enorme Rechenkapazitäten, die ständig weiter ausgebaut werden müssen. Laut einer Studie von Schneider Electric wird die Nachfrage nach KI-Rechenleistung zwischen 2023 und 2028 voraussichtlich zwei- bis dreimal schneller wachsen als die Nachfrage nach Rechenleistung insgesamt.
Der zur Bereitstellung dieser Leistung verfügbare Platz ist aber einerseits begrenzt, andererseits dürfen Server in großen KI-Clustern auch nicht auf zu viele Racks verteilt werden, um Latenzprobleme zu vermeiden. Daraus folgt, dass dieser Bedarf nur mit sehr hohen Leistungsdichten pro Rack gedeckt werden kann. Die dabei entstehende Abwärme der eingesetzten GPU-basierten Beschleunigerkarten muss schnell und energieeffizient abgeführt werden, was nur durch den Einsatz von Flüssigkeitskühlung sinnvoll zu bewältigen ist. Denn Flüssigkeit kann deutlich mehr Wärme aufnehmen als Luft. Zudem findet der Wärmeübergang bei der Flüssigkeitskühlung weitgehend in einem geschlossenen System statt, was ebenfalls Verluste minimiert. Der Einsatz von Flüssigkeitskühlung ist ab einer Leistungsdichte von ca. 20 bis 25 kW pro Rack sinnvoll. Diese Leistung könnte zwar in vielen Fällen noch mit Luft gekühlt werden, der dafür erforderliche Energieaufwand wäre jedoch deutlich höher.
Soll die Kühlung eines bestehenden Rechenzentrums für höhere Leistungsdichten erweitert oder ein neues KI-Rechenzentrum konzipiert werden, stehen für den Einsatz von Flüssigkeitskühlung mehrere Varianten und Kombinationen zur Auswahl, die eine detaillierte Planung voraussetzen. Die folgenden Abschnitte geben einen Überblick über die häufigsten Varianten, die bei der Implementierung von Flüssigkeitskühlung zur Verfügung stehen.
Grundlegende Auswahl der Wärmeübertragung
Zunächst muss festgelegt werden, wie die Wärme von den GPUs oder CPUs an die Flüssigkeit abgegeben wird. Die am häufigsten verwendete Methode ist hier die Direct-to-Chip-Kühlung. Dabei werden die GPUs oder CPUs mit Kühlkörpern versehen, die die Wärme über einen Verteiler am Rack an eine im technischen Kühlsystem (TKS) zirkulierende Flüssigkeit abgeben. Diese Methode kann auch bei bestehenden luftgekühlten Servern durch Nachrüstung eingesetzt werden. Dazu müssen die vorhandenen Kühlkörper demontiert und durch neue mit integrierten Mikrokanälen ersetzt werden. Je nach Bauart des Servers sind eventuell noch Ausschnitte im Gehäuse erforderlich, durch die die Schläuche vom Kühlkörper zur Rackverteilung geführt werden können. Beim Einsatz der Direct-to-Chip-Kühlung können vorhandene Klimaschränke zur Raumkühlung weiter genutzt werden, um die etwa 20 Prozent Restwärme abzuführen, die Komponenten wie Netzteile, die in der Regel nicht flüssigkeitsgekühlt sind, an den Raum abgeben.
Noch effektiver, aber deutlich aufwändiger und teurer in der Umsetzung, ist die Tauchkühlung. Dabei werden die kompletten Boards mit den zu kühlenden GPUs oder CPUs in Wannen oder Tanks mit dielektrischer Flüssigkeit getaucht. Die Wärme wird dann über Wärmetauscher von der Flüssigkeit im Tank auf ein TKS übertragen. Dies funktioniert jedoch in der Regel nicht mit normalen Serverkomponenten, sondern erfordert speziell für die Tauchkühlung entwickelte Hardware.
Verteilung und Weitergabe an das Gebäudewasser
Das TKS ist sowohl bei Direct-to-Chip- als auch bei Tauchkühlung mit einer Coolant-Distribution-Unit (CDU) verbunden. Diese regelt die Temperatur, den Durchfluss und den Druck der im Kühlkreislauf zirkulierenden Flüssigkeit. Zudem verfügen CDUs über Filter, die die vorgeschriebene Reinheit der Flüssigkeit gewährleisten. Über einen Wärmetauscher überträgt die CDU die Wärme aus dem Technikkühlsystem an das Gebäudewassersystem (GWS). Je nach Modell verfügen CDUs über mehrere Wärmetauscher und Pumpen und können somit unterschiedliche TKS-Kreisläufe mit verschiedenen Temperaturanforderungen an nur einem GWS realisieren.
Statt die Wärme direkt an das GWS abzugeben (Flüssigkeit-Flüssigkeit), kann eine CDU die Wärme aus dem TKS auch in die Raumluft des Serverraums abgeben (Flüssigkeit-Luft). Mit diesem System können einzelne Racks mit Flüssigkeit gekühlt werden, ohne im Serverraum Änderungen durchführen zu müssen. Diese Variante kommt üblicherweise zum Einsatz, wenn bauliche Gegebenheiten oder Zeitdruck eine direkte Verbindung der CDU mit dem GWS nicht zulassen und im Serverraum bereits eine Kühlung über Klimaschränke für luftgekühlte Server vorhanden ist. Da hier Luft als Zwischenmedium zum Einsatz kommt, sind natürlich auch mehr Wärmetauscher erforderlich, was zu höheren Verlusten gegenüber der direkten Anbindung an das GWS führt. Praktikabel ist diese Lösung aber eher bei kleineren Installationen mit einzelnen oder wenigen Racks. Zudem muss vorher geprüft werden, ob die vorhandene Kühlung die zusätzliche Wärmelast überhaupt verarbeiten kann.
Bedingt durch die bereits genannten Verluste können Flüssigkeit-Luft-CDUs nur für Kapazitäten bis 60 kW eingesetzt werden. Flüssigkeit-Flüssigkeit-CDUs, die direkt mit dem GWS verbunden sind, können hingegen auch Kapazitäten bis 1 MW verarbeiten, vorausgesetzt das vorhandene GWS hat dazu die nötigen Reserven. Alternativ könnte auch ein dediziertes GWS nur für die Flüssigkeitskühlung installiert werden.
Nach der ASHRAE-Richtlinie TC 9.9 können CDUs auf zwei unterschiedliche Arten installiert und angebunden werden. Die erste Variante sieht eine zentrale CDU vor, an der sich mehrere Racks anschließen lassen. Dies ermöglicht die komplette Nutzung der Racks für Server, benötigt aber Stellfläche im Rechenzentrum. Der Nachteil ist dabei, dass alle Racks über eine einzige CDU ohne vollständige Redundanzen versorgt werden. Lediglich einzelne Einheiten wie Pumpen oder Ventile sind in den CDUs teilweise redundant ausgelegt. Bei einem Ausfall würde dies dazu führen, dass alle verbundenen Server heruntergefahren werden müssen, um nicht zu überhitzen. Die sinnvolle Nutzung dieses Konzepts erfordert es also, mindestens 2N-Redundanzen aufzubauen, um Ausfälle jederzeit abfedern zu können. Ein weiterer Punkt ist die korrekte Dimensionierung. Einerseits sollten ausreichend Reserven zur Skalierung vorhanden sein, andererseits sollten die CDUs auch im Teillastbetrieb schon effizient arbeiten.
Bei der zweiten Variante wird in jedem Rack eine eigene CDU integriert. Das reduziert zwar etwas den Platz im Rack, ist aber gerade in kleineren Rechenzentren sinnvoll, weil keine zusätzliche Stellfläche benötigt wird. Ausfälle wirken sich nur auf ein einzelnes Rack aus, alle anderen Server können ohne Unterbrechung weiterlaufen. Auch eine Skalierung ist so einfacher möglich, weil beim Hinzufügen jedes weiteren Racks eine optimal auf die benötigte Kühlleistung ausgelegte CDU ergänzt wird. Insgesamt enthält das System so aber mehr Wärmetauscher, was die Kältemenge, die aus dem Gebäudewasser entnommen werden kann, gegenüber einer zentralen CDU reduziert.
Kühlung des Gebäudewassersystems (GWS)
Der Gebäudewasserkreislauf ist je nach benötigtem Temperaturniveau mit Rückkühlern, Kühltürmen oder Chillern verbunden, die das Wasser durch Freikühlung oder Kompressionskälte abkühlen. Die ASHRAE TC 9.9 definiert zu diesem Zweck Temperaturklassen mit Empfehlungen, bei welchen Gebäudewassertemperaturen der Einsatz von Kühltürmen sinnvoll ist und ab welcher Temperatur eine Ergänzung durch Chiller nötig ist. Bei allen Varianten der Flüssigkeitskühlung müssen die Temperaturen des Gebäudewassers so eingestellt sein, dass für die Kühlkreisläufe ausreichend Reserven zur Verfügung stehen, ohne dass sich die Temperaturen zu stark dem Taupunkt des Raumes annähern. Dabei entstehendes Kondensat könnte sonst für Beschädigungen an IT-Komponenten sorgen. In den Klassen W17 (17 Grad Celsius) und W27 (27 Grad Celsius) sollten Kühltürme mit Chillern eingesetzt werden. Diese Temperaturen sind in der Regel aber nur erforderlich, wenn das GWS zusätzlich zur Flüssigkeitskühlung noch Klimaschränke versorgen muss oder die Flüssigkeitskühlung über eine Flüssigkeit-Luft-CDU angekoppelt ist. Für reine Flüssigkeitskühlung mit einer Flüssigkeit-Flüssigkeit-CDU reichen Temperaturen im Bereich W45 (45 Grad Celsius) oder sogar noch höher aus. Dies kann auch mit Kühltürmen ohne Chiller erreicht werden, die gegebenenfalls noch durch Abwärmenutzung unterstützt werden. Durch die deutlich höheren Eingangstemperaturen als bei Luftkühlung ist bei Flüssigkeitskühlung auch in gemäßigten Klimazonen üblicherweise ganzjährige freie Kühlung mit Außenluft möglich.
Was muss bei Flüssigkeitskühlung noch beachtet werden?
Bei Anlagen, die mit Wasser-Glykol-Gemisch betrieben werden, müssen die Leitungen so verlegt werden, dass sie nicht über aktiven Komponenten verlaufen. Leckagen könnten sonst Beschädigungen an Servern oder Netzwerkkomponenten verursachen. Bestenfalls sollten die Leitungen durch den meist schon vorhandenen Doppelboden geführt werden. Aber auch dort ist eine regelmäßige Prüfung auf Korrosion und Undichtigkeiten erforderlich. Diese Restriktionen gelten nicht für Anlagen, die mit dielektrischen Flüssigkeiten betrieben werden, da diese bei Austritt keine Schäden verursachen können.
Soll Tauchkühlung zum Einsatz kommen, muss bei größeren Anlagen unbedingt die Statik des Gebäudes beachtet werden. Die für Tauchkühlung eingesetzten Tanks oder Wannen können neben großen Mengen an Flüssigkeit auch deutlich mehr Server pro Quadratmeter aufnehmen als herkömmliche Serverschränke. Somit können höhere punktuelle Deckenlasten erreicht werden, die vor dem Umbau unbedingt von Statikern geprüft und freigegeben werden müssen.
Fazit
Beim Betrieb eines Rechenzentrums für High-Performance-Anwendungen wie KI oder Blockchain ist Flüssigkeitskühlung derzeit alternativlos. Im Vergleich zu Luftkühlung ist sie bis zu 70 Prozent energiesparender und ermöglicht deutlich höhere Leistungsdichten, also mehr Rechenleistung auf weniger Fläche. Bei der Direct-to-Chip-Variante genügt es, die vorhandenen Kühlkörper auszutauschen und über Verteiler mit einem TKS an eine CDU anzukoppeln. Bei dieser Variante können bereits existierende Chiller und Serverracks in der Regel problemlos weitergenutzt werden. Diese Lösung bietet bei Aufrüstung von bestehenden Rechenzentren das beste Preis-Leistungs-Verhältnis. Bei einem komplett neuen High-Performance-Rechenzentrum sollte Tauchkühlung in jedem Fall zusätzlich mit in Betracht gezogen werden und beide Systeme ausführlich miteinander verglichen werden.
Konkrete Beispiele, wie und mit welchen Komponenten eine Flüssigkeitskühlung für KI-Cluster aufgebaut werden kann, sind im Ecostruxure-Reference-Design 99 von Schneider Electric beschrieben. Dieses Referenzdesign für KI-Rechenzentren wurde gemeinsam mit Nvidia entwickelt. Einzelheiten dazu gibt es im Beitrag „Fit für KI: Rechenzentren im Zeitalter Künstlicher Intelligenz“.
Von Vincent Barro, Schneider Electric, VP Secure Power DACH
#SchneiderElectric