Ausfälle in Rechenzentren: Stromprobleme sind Hauptursache

Server room.
Sheila Zabeu -

April 17, 2023

Es gibt ein bekanntes Sprichwort, das besagt: Vorbeugen ist besser als Heilen. Was Rechenzentren betrifft, ist das nicht anders. Und für eine vorbeugende Wartung dieser Anlagen gibt es nichts Besseres, als zu wissen, welches die häufigsten Ursachen für Betriebsausfälle sind – um sie künftig vermeiden zu können.

Laut einer aktuellen Studie des Uptime Institute sind die Ausfallzeiten in Rechenzentren in den letzten Jahren allmählich zurückgegangen. Zwar kam es in den meisten Einrichtungen in den letzten drei Jahren zu Betriebsausfällen, doch nur ein kleiner Teil davon wurde als schwerwiegend oder gravierend eingestuft. Schwere Fälle führen zu Service- und/oder Betriebsausfällen mit finanziellen Verlusten, Verstößen gegen die Vorschriften, Rufschädigung und Sicherheitsproblemen. Gravierende Fälle haben die gleichen Folgen – aber in einem noch höheren Ausmaß.

Grafik zum Prozentsatz der Ausfälle von Rechenzentren nach Signifikanz zwischen 2019 und 2022. Die Grafik zeigt, dass schwere und gravierende Ausfälle je um 2 % zurückgegangen sind.

Die Seltenheit von schweren und gravierenden Fällen ist jedoch kein Grund zur Freude, wenn man das Gesamtbild betrachtet: Wenn sie auftreten, sind Ausfälle wegen der zunehmenden Abhängigkeit von digitalen Diensten immer kostspieliger. So gab ein Viertel der Befragten an, dass ihr jüngster Ausfall mehr als 1 Million US-Dollar an direkten und indirekten Kosten verursacht hat. Weitere 45 % der Befragten gaben Kosten zwischen 100.000 und 1 Million US-Dollar an.

Aus den Details der Studie lässt sich ableiten, dass die Häufigkeit von Ausfällen trotz technologischer Verbesserungen und physisch redundanter Rechenzentren relativ hoch ist. Es gibt jedoch keine Anzeichen dafür, dass die Zahl der Ausfälle hier im Vergleich zur allgemeinen IT zunimmt – sie könnte sogar langsam zurückgehen. Uptime Instituite erforscht dies weiter.

Die Ursachen verstehen

Stromversorgungsprobleme sind nach wie vor mit Abstand die Hauptursache für erhebliche Ausfälle. Andere Gründe sind weit weniger häufig. Drei Ursachen sind jedoch besonders problematisch: Kühlungsausfälle, IT-Software-/Systemfehler und Netzwerkprobleme. Dabei nimmt die Häufigkeit von Problemen mit ausgelagerten Anbietern, z. B. Software as a Service (SaaS), Hosting und Cloud-Diensten, zu.

Prozentanteil von Ursachen für Ausfälle in 2020, 2021 und 2022. Stromausfälle sind die Hauptursache, Probleme mit Drittanbietern nehmen zu (von 5 % zu 8 %).

Ausfallzeiten aufgrund von Stromproblemen können ganze Anlagen betreffen und Dienstleistungen unmittelbar zum Erliegen bringen. Die Diagnose und Wiederherstellung der Stromversorgung kann zwar schnell erfolgen, aber der Neustart von IT-Systemen und die Synchronisierung von Datenbanken dauert mitunter viele Stunden. Darüber hinaus können Stromausfälle Geräte beschädigen und Rechenzentren für längere Zeit außer Betrieb setzen.

Die häufigste Ursache für Stromausfälle sind USV-Ausfälle (ironischerweise: „unterbrechungsfreie Stromversorgung“). Ausfälle von Generatoren und Transferschaltern wurden von etwas mehr als einem Viertel der Betreiber festgestellt, die an einer Umfrage zur Ausfallsicherheit von Rechenzentren im Jahr 2023 teilnahmen.

Am weitesten verbreitete Ursachen für Ausfälle durch Probleme mit Drittanbietern in den letzten drei Jahren. Hauptursachen sind Software- oder Systemfehler und Netzwerk- oder Verbindungsprobleme.

Die Ingenieure des Uptime Institute erklären, dass die statische unterbrechungsfreie Stromversorgung aus mehreren Gründen versagt:

  • Lüfter fallen oft aus, weil sie oftmals von geringer Qualität sind und ununterbrochen laufen.
  • Dämpfungs-Absorptions-Kondensatoren können aufgrund von Verschleiß ausfallen.
  • Batterien fallen aus, weil sie über lange Zeit verwendet und nicht genau überwacht werden.
  • Wechselrichter fallen weniger häufig aus.

Die Studie schätzt, dass menschliches Versagen in zwei Dritteln bis vier Fünfteln aller Ausfälle in Rechenzentren eine Rolle spielt. Diese Fehler werden hauptsächlich dadurch verursacht, dass Mitarbeiter Abläufe nicht einhalten oder dass diese Prozesse selbst fehlerbehaftet sind

Für die aktuelle Ausgabe der jährlichen Umfrage des Uptime Institute wurden drei Hauptquellen verwendet: die Global Data Center Survey 2022, durchgeführt im April und Mai 2022 mit etwa 830 Beteiligten; die Data Center Resiliency Survey 2023, durchgeführt im Januar und Februar 2023 mit 739 Befragten; öffentliche Informationen, die vom Uptime Institute im Jahr 2022 gemeldet oder nachverfolgt wurden.

Probleme mit Bränden

Die Verwendung von Lithium-Ionen-Batterien in Rechenzentren nimmt zu. Nach Angaben von Frost & Sullivan machte diese Art im Jahr 2020 15 % des Batteriemarktes für diese Anlagen aus. Der Prozentsatz soll aber bis 2025 38,5 % erreichen.

Das Uptime Institute warnt jedoch, dass Lithium-Ionen-Batterien ein größeres Brandrisiko darstellen als ventilgeregelte Blei-Säure-Batterien – und zwar unabhängig von ihrer spezifischen Chemie und Konstruktion. Das ist ein Standpunkt, der von der US National Fire Protection Association und anderen Regulierungsbehörden unterstützt wird. Da bei der Zerstörung von Zellen in Lithium-Ionen-Batterien brennbare Gase (einschließlich Sauerstoff) entstehen und sich so das Feuer unkontrolliert ausbreiten kann, sind Brände mit dieser Ursache bekanntermaßen schwer zu bekämpfen.

Viele Betreiber von Rechenzentren halten das Risiko-Nutzen-Verhältnis von Lithium-Ionen-Batterien dennoch für annehmbar. Laut einer Umfrage des Uptime Institute aus dem Jahr 2021 hat fast die Hälfte der Betreiber diese Technologie in ihren Anlagen eingeführt. Das bedeutet einen Aufwärtstrend bei der Batterienutzung von etwa einem Viertel in den vorangegangenen drei Jahren. In der Umfrage von 2022 konnte ein noch höherer Grad der Akzeptanz festgestellt werden.