Ausfälle in Rechenzentren: Häufigkeit und Schweregrad nehmen ab

Co-workers in data center server room
Sheila Zabeu -

Mai 10, 2024

Um den Anforderungen neuer Anwendungen der Künstlichen Intelligenz (KI) gerecht zu werden, nimmt die Anzahl und Größe von Rechenzentren immer weiter zu. Man erwartet daher, dass auch Ausfälle in diesen Einrichtungen häufiger auftreten. Allerdings zeigen Daten aus einem Bericht des Uptime Institutes das Gegenteil: Nach einem Beobachtungszeitraum von mehreren Jahren zeichnet sich ein konsistenter Abwärtstrend ab, was die Häufigkeit und Schwere von Rechenzentrumsausfällen betrifft.

Mehr als die Hälfte (55 %) der im Jahr 2023 befragten Rechenzentrumsbetreiber gaben an, in den letzten drei Jahren Ausfälle erlebt zu haben – ein klarer Rückgang im Vergleich zu den 60 % im Jahr 2022 und den 69 % im Jahr 2021. Darüber hinaus wurde nur einer von zehn Ausfällen im Jahr 2023 als schwerwiegend oder sehr schwerwiegend eingestuft, was eine Verbesserung um vier Prozentpunkte gegenüber den Antworten von 2022 und um 10 Prozentpunkte gegenüber 2021 darstellt.

Obwohl die Häufigkeit der Ausfälle zurückgegangen ist, warnt das Uptime Institute, dass es keinen Grund zur Selbstzufriedenheit gibt, da die Raten immer noch besorgniserregend hoch sind. Die hohen Kosten und die damit verbundenen Reputationsschäden, die sich aus Ausfällen von Rechenzentren ergeben, sind nach wie vor eine große Quelle der Besorgnis und ein starker Antrieb für Investitionen. Außerdem bedeutet die Migration zu öffentlichen Clouds nicht zwangsläufig, dass es weniger Ausfälle geben wird.

Eine weitere Sorge betrifft die Instabilität der Stromnetze. Es gibt Hinweise darauf, dass die weltweite Umstellung auf dynamischere und erneuerbare Netze die Zuverlässigkeit der Systeme verringern wird, so das Uptime Institute. Wenn dies der Fall ist, könnte es in Rechenzentren häufiger zu Ausfällen kommen, da unterbrechungsfreie Stromversorgungen (USV) oder Generatoren nicht angemessen auf Ausfallzeiten reagieren.

Extreme Wetterereignisse wie hohe Temperaturen, Stürme und Überschwemmungen wurden in den letzten Jahren ebenfalls mit Ausfällen in Rechenzentren in Verbindung gebracht. Aufgrund der aktuellen Klimasituation wird sich dieser Trend wahrscheinlich noch verstärken und das Risiko von Rechenzentrumsausfällen erhöhen.

Ein weiterer Risikofaktor ist die Einführung neuer Technologien, um die Widerstandsfähigkeit und Energieleistung von Rechenzentren zu erhöhen: Dem Bericht des Uptime Institute zufolge kann der Einsatz von softwarebasierter verteilter Resilienz zur dynamischen Verlagerung von Datenverkehr und Arbeitslasten das Ausfallrisiko im Laufe der Zeit verringern, während der Einführungsphase jedoch erhöhen. Ein weiteres Beispiel sind Flüssigkeitskühlsysteme, die zwar einige thermische Risiken mindern können, aber das Risiko von Ausfallzeiten im Falle eines Komponentenausfalls erhöhen.

Trotz der Zunahme der Risikofaktoren geht der Bericht 2023 des Uptime Institute davon aus, dass die Zahl der Ausfälle pro Anlage abnimmt. Dieser Trend könnte darauf zurückzuführen sein, dass die meisten Unternehmen von Jahr zu Jahr mehr in redundante physische Infrastrukturen investieren.

Für das Uptime Institute widerspricht dieser Trend den Erwartungen, dass Multi-Site-Ansätze die Redundanzstrategien für physische Standorte untergraben. Zwar bewegt sich die Branche in der Tat in Richtung softwarebasierter, verteilter Ausfallsicherheitsmodelle – doch die Aufrechterhaltung und Erhöhung der Redundanz von Einrichtungen vor Ort bleibt für die meisten Rechenzentrumsbetreiber eine Priorität.

Die Ursachen von Rechenzentrumsausfällen

Es ist nicht selten eine Herausforderung, die Hauptursachen für Ausfälle in Rechenzentren zu ermitteln – denn es gibt eine große Vielfalt von Vorfällen.

Die jährlichen Erhebungen des Uptime Institute haben durchweg gezeigt, dass Unterbrechungen in der lokalen Stromverteilung die häufigste Ursache sind – was nicht überrascht, da IT-Hardware sehr anfällig für Schwankungen in der Stromversorgung ist (z. B. Spannungsschwankungen in Bruchteilen von Sekunden). Andererseits besteht bei manchen Rechenzentrumsbetreibern die allgemeine Tendenz, Ausfälle oder schlechte Leistungen von Kühlanlagen über längere Zeiträume zu tolerieren.