Extrem hohe Energiekosten durch Überkühlung
Die Kühlung kann bis zu 50 Prozent des gesamten Energieverbrauchs in Rechenzentren ausmachen. Daher sind Konzepte für das energieeffiziente Kühlen besonders wichtig. Die IT-Hardware wird normalerweise in Reihen angeordnet und zwar so, dass jeweils Kalt- und Warmgänge entstehen. Die Luftansaugung erfolgt vom kalten Gang her. Kühlluft wird dem kalten Gang zugeführt, strömt durch das Equipment und wird im heißen Gang abgeleitet. Ein entsprechend effizientes Luftstrom-Design ist wesentlich. Typische Maßnahmen dafür sind beispielsweise die Warmgang- oder Kaltgangeinhausung. Weitere zentrale Aspekte sind die Lufttemperatur der Zuluft und die Strömungsgeschwindigkeit. Wenn unterschiedliches Geräte mit unterschiedlichen Betriebsbedingungen oder Luftströmungsrichtungen im selben Raum installiert werden muss, sollte jeweils ein eigener Bereich geschaffen werden. Im Weiteren sollte man vorzugsweise getrennte Steuerungen für die Kühlung einsetzen, um Ineffizienzen zu vermeiden, die aus niedrigeren Temperatureinstellungen oder unzureichender Steuerung des Luftstroms resultieren.
Rechenzentren sollten unter den gegebenen klimatischen Bedingungen auf höchstmögliche Effizienz ausgelegt und betrieben werden. Nach gängiger Lehrmeinung liegt der “empfohlene” Bereich der Raumtemperatur in den Datencentern zwischen 18 und maximal 24 °C. Diese veraltete Sichtweise ist jedoch reine Energieverschwendung. Bereits im Jahr 2011 postulierte der Chip-Hersteller Intel: „100 °Fahrenheit (fast 38 °C) stellen für den sicheren Betrieb eines Rechenzentrums kein Problem dar“. Zu niedrige Temperatureinstellungen verschwenden Energie durch Überkühlung. Die Temperatur im Datencenter kann durchaus auf Werte von deutlich über 30 °C ansteigen, ohne dass dadurch die Betriebssicherheit der Server gefährdet wird. Intel verweist auf Erfahrungen eines eigenen Rechenzentrums, bei dem die Temperatur auf 33 °C angehoben wurde. In diesem Beispiel sanken die Stromkosten um 67 Prozent.
Höhere Temperatureinstellungen erfordern jedoch eine optimierte Lüftung, um die Vermeidung von lokalen Hotspots sicherzustellen. Bei großen Wärmedichten (z.B. 25 kW pro Rack), ist eine traditionelle Raumkühlung nicht mehr ausreichend. In diesem Fall kann eine spezielle in Racks oder Reihen angeordnete Kühlung erforderlich sein.
Thermische Hotspots
Eine auslastungsbedingte Schwankung der Leistungsaufnahme hat jedoch gleichzeitig eine Schwankung der Wärmeentwicklung durch die Server zur Folge. Diese Schwankung hat in Verbindung mit den hohen Energiedichten heutiger Server starken Einfluss auf die Anfälligkeit für thermische Hotspots und ebenso auf die Alterungseffekte der Hardware.
Bei thermischen Hotspots handelt es sich um örtlich begrenzte Überhitzung von Servern verursacht durch Wärmestaus, die zu temporären Ausfällen oder gar Zerstörung der Hardware führen kann. Grund hierfür sind typischerweise stark schwankende Auslastungen von Servern in Verbindung mit schlechtem Raumdesign oder unzureichender Klimatisierung. Diesem Problem wird derzeit mit verbessertem Raumdesign und vor allem durch verstärkte Klimatisierung entgegengewirkt, wobei der zweite Punkt wiederum den Energiebedarf des gesamten Rechenzentrums und damit die verbundenen Betriebskosten stark erhöht.
Die Anfälligkeit für thermische Hotspots, der Energieverbrauch durch Klimatisierung und auch bezüglich möglicher Alterungseffekte ist bei einem konstanten Temperaturniveau optimal. Durch eine dynamischen Lastverschiebung, wie diese heute durch die Virtualisierung genutzt wird, kann dies erreicht werden. Komplexer gestaltet es sich jedoch, die Auslastungsauswirkung der einzelnen Server auf die Temperaturverteilung im Raum abzuschätzen, wie es für eine lastabhängige Temperaturregelung notwendig ist. Es spielen hierbei viele Faktoren (z.B. das Raumdesign, das Temperaturverhalten anderer Server, die Klimatisierung) eine Rolle, die zum Teil schwer zu charakterisieren sind oder sich zur Betriebszeit dynamisch ändern. Eine genaue Vorhersage erfordert daher ein entsprechendes Energie-, Last- und Temperaturmanagement.
Ausfälle durch Alterungseffekte
Alterungseffekte sind zunehmend zu Problemen bei modernen Prozessoren und Speichern. Wurde die Hardware innerhalb ihrer Spezifikation betrieben, ließ sich der Ausfallzeitpunkt bisher zuverlässig anhand des Alters vorhersagen. Auch überstieg das durchschnittliche Lebensalter der Halbleiterkomponenten die gängigen Austauschzyklen, so dass alterungsbedingte Ausfälle selten auftraten. Bedingt durch den Skalierungstrend bei der Herstellung rückt das Lebensalter immer stärker an die regulären Austauschzyklen. Relevante Einflussparameter sind die absolute Temperatur, Temperaturschwankungen, Instabilitäten der Versorgungsspannung und die Auslastung der Hardware. Somit spielen laufzeitvariierende Parameter eine entscheidende Rolle, wodurch die Lebenszeit der Hardware schwerer vorhersagbar wird.
Ausfälle durch zunehmende Alterungseffekte können mit entsprechend redundanter Auslegung und durch kürzere Austauschintervalle begrenzt werden, was sich jedoch wiederum in erhöhten Kosten niederschlägt. Könnte man die Einflussparameter und damit die Alterung gezielt beeinflussen, wäre eine gleichmäßige Alterung aller Hardwarekomponenten im Rechenzentrum möglich und die Ausfallwahrscheinlichkeit bzw. die Lebensdauer aller Komponenten ließe sich optimieren.
Als Steuerungswerkzeug kann an dieser Stelle erneut die dynamische Lastverschiebung der Server dienen, da sich auf diese Weise sowohl die Temperatur der Hardware als auch die Auslastung beeinflussen lässt. Ergänzend erfordert eine solche Steuerung zusätzlich Modelle, anhand derer sich die Alterung der Hardware in Abhängigkeit von den Einflussparametern ableiten lässt. Die Entwicklung solcher Modelle steckt jedoch noch in den Anfängen.
Gleichstrom anstatt Wechselstrom
In der Regel benötigt das heute gängige IT-Geräte für den Betrieb nur Gleichstrom. Die Stromanbieter stellen die von ihnen angelieferte Elektrizität jedoch nur in Form von Wechselstrom bereit. Im Normalfall wandelt eine unterbrechungsfreie Stromversorgung den 380 Volt Dreiphasenwechselstrom des Stromanbieters in Gleichstrom um, um seine Batterien zu laden, und wandelt ihn anschließend zurück in Wechselstrom um ihn zum Rechenzentrum zu leiten. Die PDU (Power Distribution Unit) jedes Racks oder jeder Reihe Racks konvertiert die 380 V Wechselstrom wieder in 240 V Wechselstrom. Die gängigen Netzteile der IT-Ausrüstung konvertieren die 240 V Wechselstrom anschließend in die benötigte Gleichspannung.
Die Mehrfachwandlung der Speisespannung verursacht Wärme, die vom Betreiber abgeführt werden muss. Aus diesem Grund gibt es Initiativen, die Rechenzentren direkt mit Gleichspannung zu betreiben. Nicht nur die geringere Wärmeentwicklung, auch der geringere Stromverbrauch ist ein Argument für diesen Schritt. Betreibt man ein Rechenzentrum direkt mit Gleichspannung, lässt sich der Stromverbrauch für die IT-Ausrüstung um etwa 15 Prozent senken.
Freie Kühlung
Von einer freien Kühlung spricht man wenn zur Kühlung im Rechenzentrum kühlere Außenluft oder Wasser (ohne den Betrieb der Kältemaschinen) verwendet. Die freie Kühlung reduziert die Betriebskosten und verringert auch die Treibhausgase. Der Abtransport der Wärme erfolgt ohne den Betrieb von Kompressoren, so wird die gesamte elektrische Energie für den Kaltwassersatz verringert, und ist somit deutlich effizienter. Je niedriger die durchschnittliche Außentemperatur über das Jahr ist, desto günstiger sind die Möglichkeiten der freien Kühlung. Die klimatischen Bedingungen definieren damit die wirtschaftliche Effizienz entsprechender Maßnahmen. Eine ausschließliche freie Kühlung wird dann möglich, wenn die Differenz zwischen der Rücklauftemperatur des Wassers und der Umgebungstemperatur größer als 11 K ist. Daher sind die Energieeinsparungen umso größer, je höher die Zulufttemperatur bei den Servern eingestellt wird. Wenn die Konzeption des Kühlsystems eine höhere Serverraumtemperatur erlaubt, kann ein erlaubter Anstieg der Temperatur im Rechenzentrum ein entscheidendes Kriterium, um diese freie Kühlung noch intensiver und über noch längere Perioden im Jahr nutzen zu können. In Österreich liegt die Temperatur durchschnittlich zu knapp 50 Prozent des Jahres unter 10 Grad. Da die Klimatisierung eines Rechenzentrums im Normalfall rund um die Uhr läuft, beträgt das Einsparpotential ebenfalls fast 50 Prozent.
Netzwerkkonsolidierung