Ungewöhnliche Rechenzentren

Im März 2021 wurde eines der Rechenzentren von OVH in Straßburg, Frankreich, bei einem Feuer zerstört und ein weiteres teilweise beschädigt. Dadurch wurden mehr als drei Millionen Websites lahmgelegt, darunter die Seiten von Regierungsbehörden, Banken, Geschäften, Nachrichtendiensten und Spieleanbietern. Die Stilllegung eines der größten Rechenzentren-Unternehmen Europas, das ein direkter Wettbewerber von Amazon Web Services, Microsoft Azure und Google Cloud ist, brachte den Kunden des Unternehmens einen millionenschweren Verlust ein.

Fabio Tagnin -

Juni 16, 2021

In Zeiten, in denen Daten wichtiger sind als Öl, entstand zudem ein denkbar großer Schaden für das Unternehmen selbst sowie dessen Image und Ruf. Der Fall OVH veranschaulichte zwei Dinge: Einerseits zeigte er, was passieren kann, wenn eine Katastrophe in einem großen Rechenzentrum passiert; andererseits veranschaulichte er, wie sich das Management im Falle einer solchen Krise verhalten sollte.

Kunden erwarten volle Transparenz hinsichtlich der Ursachen, dem Schaden und der Maßnahmen, die das Rechenzentrum ergreift, um den Normalzustand der Dienste wiederherzustellen. Und genau das hat OVH offenbar getan. Dies ist nicht immer der Fall. Wenn die Entscheidung für eine Auslagerung von Informationsverarbeitungs- und Speicherdiensten an einen Cloud-Anbieter getroffen wird, müssen die Risiken und Kosten abgewogen werden. Und die Erfahrung zeigt, dass die Rendite in der Regel höher ist, auch wenn diese Ereignisse mit einbezogen werden.

Neben „natürlichen“ Katastrophen gibt es auch vom Menschen verursachte. In den letzten Wochen hat ein Cyberangriff auf den Pipeline-Betreiber Colonial an der US-Ostküste die Versorgung im ganzen Land unterbrochen, was zu steigenden Benzinpreisen und großer nationaler Unruhe führte. Hacker brachen in die Server des Unternehmens ein, übernahmen die digitale Steuerung der Pipeline und forderten ein Lösegeld. Im Februar verschaffte ein Hacker sich Zugriff auf das Wassersystem einer Stadt in Florida und versuchte, eine gefährliche Menge einer chemischen Verbindung in den Wasserkreislauf zu injizieren. Und vor wenigen Jahren hackte sich eine Gruppe in die Kraftwerke der Ukraine, schaltete elektronische Schalter aus und verursachte so einen Stromausfall, von dem Tausende von Menschen betroffen waren.

All das sind Risiken, die jedes Unternehmen eingeht, das seine Systeme auf irgendeine Weise mit dem Internet verbindet. Und die menschlichen Motive sind sehr vielfältig, beispielsweise finanzieller Gewinn, Protest, Rache, Wettbewerb oder ein sonstiger Grund, dem angegriffenen Unternehmen (oder dessen Kunden) zu schaden oder dem Angreifer einen Vorteil zu verschaffen.

Insofern ist es nicht verwunderlich, dass viele Rechenzentren in effizientere Schutzmaßnahmen und Wiederherstellungsmethoden investieren, die nach Katastrophen wie Erdbeben, Tornados, Bränden, Explosionen, Stromausfällen, Überlastungen, Invasionen, Netzwerkunterbrechungen und vielen weiteren Ereignissen, die eintreten können – und werden – ergriffen werden können. Unter diesen Investitionen interessieren uns vor allem zwei Dinge: der Bau unterirdischer Rechenzentren und die Installation von Unterwasseranlagen.

Die Suche nach „versteckten“ Standorten hat bereits Dutzende von Unternehmen dazu veranlasst, ihre Rechenzentren unterirdisch zu errichten, wobei viele dabei vorhandene Strukturen nutzen, die von verlassenen Kalksteinminen wie dem Bluebird Data Centre in Missouri über Gletscherminen wie der Lefdal Mine im Finnland bis hin zu Atombunkern wie dem Bahnhof Data Centre in Schweden und Kirchenkellern wie dem Barcelona Supercomputing Centre, MareNostrum, reichen. Der Untergrund bietet viele Vorteile bei der Temperaturkontrolle, den Baukosten und der Tatsache, dass die Orte nicht öffentlich sichtbar sind.

MareNostrum, Barcelona Supercomputing Centre

Da der Energieverbrauch einen großen Teil der Kosten eines Rechenzentrums ausmacht, haben die Unternehmen bei der Wahl eines unterirdischen Standorts nach günstigen, erneuerbaren Energiequellen gesucht, wie zum Beispiel Windkraftanlagen oder Solarenergie. Und wenn man bedenkt, dass fast 50 % der Energiekosten eines Rechenzentrums dafür aufgewendet werden, die Temperatur kühl und stabil zu halten, ist es umso besser, wenn die thermische Amplitude der Umgebung so gering wie möglich ist, ohne direktes Sonnenlicht während des Tages und geschützt durch dicke Steinwände. Die Belüftung kann in diesem Fall meist auf natürliche Weise erfolgen, durch vertikale oder horizontale Kanäle oder manchmal auch durch die Zirkulation von Gletscherwasser.

Zu den Herausforderungen, die jedes Rechenzentrum bewältigen muss, gehören alle Redundanzen bei der Stromversorgung und den Netzwerkanschlüssen. In einem landbasierten Rechenzentrum, ob über oder unter der Erde, lässt sich dies leicht umsetzen. Unter Wasser ist die Sache komplizierter. Microsoft errichtete im Juli 2020 ein experimentelles Rechenzentrum im Meer, um den Zustand der Maschinen und die internen und externen Strukturen nach etwas mehr als 2 Jahren unter Wasser zu bewerten. Das Project Natick nutzte solare und mechanische Energie, die aus den Meereswellen gewonnen wurde, um es am Laufen zu halten. Bei der Netzwerkverbindung zur Oberfläche wurde sogar Post-Quantum-Kryptographie eingesetzt, um die Sicherheit der dort verarbeiteten Daten sicherzustellen.

Das Rechenzentrum wurde in einem Metallzylinder von nur 12 Metern Länge installiert, der vor der schottischen Küste in der Nähe der Orkney-Inseln in fast 120 Meter tiefem Salzwasser versenkt wurde. Es beherbergte 12 Racks mit 864 Servern und 27,6 Petabyte Speicherplatz und verbrauchte fast 240 kW. Und es war mit Stickstoffgas gefüllt, um einem durch Sauerstoff verursachten Verschleiß von Metallteilen vorzubeugen. Für die Dauer des Experiments verglich das Unternehmen die Leistung des Rechenzentrums mit der eines anderen an der Oberfläche, indem es immer die gleichen Prozesse mit den gleichen Verbindungen ablaufen ließ. Das Unternehmen kam zu dem Ergebnis, dass der Zuverlässigkeitsindex des Unterwasserprojekts achtmal höher war als der des Äquivalents an der Oberfläche; es kam zu weniger Serverausfällen.

Obwohl es sich um ein experimentelles Projekt handelt, hat es deutlich gemacht, dass der Bau von Unterwasser-Rechenzentren nicht mehr weit davon entfernt ist, populär zu werden: Es ist möglich, realisierbar und führt zu geringeren Kosten sowie einer höheren Zuverlässigkeit als ein Rechenzentrum an Land. Außerdem ist es geschützt vor menschlichem Versagen und anderen Katastrophen, die an der Oberfläche eintreten können. Auf der anderen Seite bietet es keine Möglichkeit zur physischen Manipulation seiner Komponenten und eine – wenn auch nur teilweise – Freilegung der Verbindungskabel.

Unabhängig von der Art des Rechenzentrums sollte nicht vergessen werden, dass der Dienst nicht nur kosteneffektiv sein muss, sondern auch Redundanz, Sicherheit, lokalen Support, vielfältige Verbindungen, Flexibilität der Zusammensetzung und validierte Disaster-Recovery-Verfahren aufweisen muss. Noch besser ist es, wenn spezifische Zertifizierungen für Ihre Anwendungen und Betriebszeitstatistiken bereitgestellt werden.

Wie im Fall von OVH reicht es nicht aus, über Redundanz und lokale Backups zu verfügen. Ihre Daten und Algorithmen müssen auch an einem anderen Ort gespeichert werden, auf den im Falle eines Ausfalls der ursprünglichen Installation sofort zugegriffen werden kann. Dieser Prozess muss von Ihrem Unternehmen bei der Beauftragung des Dienstes durchgeführt und überprüft werden, um die Funktionsfähigkeit sicherzustellen. Nicht selten gibt es Fälle, in denen intensive Backup-Prozesse aufgebaut werden, nur um dann am Tag des tatsächlichen Ausfalls festzustellen, dass die Backups beschädigt sind und es keine Möglichkeit zur Wiederherstellung gibt. Daher muss der Wiederherstellungsprozess zyklisch erfolgen.

Die immer häufiger werdenden Cyberangriffe erfordern auch eine verstärkte Sicherheit, sowohl logischer als auch physischer Natur, mit Verschlüsselungsmechanismen für die Datenspeicherung, -verarbeitung und -übertragung sowie mit Präventionssystemen wie Firewalls, Routing, Warnmeldungen und Zugriffssperren. Denn der Schaden eines Ransomware-Angriffs kann im Vergleich zu den juristischen Kosten bei einem Datenleck von Kundendaten gering sein.

Viele Rechenzentren wurden von Zertifizierungsstellen abgenommen und verfügen über entsprechende Nachweise, zum Beispiel HIPAA für Dienste im Gesundheitswesen, ISO 20000-1 für IT-Dienste und 27001 für Sicherheit sowie SSAE 18, PCI DSS für Finanzdienstleistungen, oder weitere. Je nachdem, welche Dienstleistung Ihr Unternehmen für die Kunden erbringt und in welcher Region Sie sich auf der Welt befinden, ist eine oder mehrere dieser Zertifizierungen erforderlich.

Je nach räumlicher Entfernung zwischen Ihren Mitarbeitern und dem Rechenzentrum, auf dem Ihr System läuft und Ihre Daten gespeichert sind, ist es von Vorteil, wenn das beauftragte Unternehmen auch einen Remote-Support rund um die Uhr und an jedem Tag des Jahres anbietet – und zwar durch technische Experten, die physisch auf die Server zugreifen und lokale Maßnahmen durchführen können, die aus der Ferne nicht möglich sind, beispielsweise über SSH. Bei Co-Location-Diensten ist es manchmal erforderlich, eine Netzwerkkarte, ein Speichermodul oder sogar eine Festplatte auszutauschen, und die Kosten für die Entsendung eines Mitarbeiters kann nicht kompensiert werden.

Ein weiterer wichtiger Aspekt ist die geografische Abdeckung des Kommunikationsnetzes und des Anbieters der letzten Meile, der Ihr Büro, Ihre Mitarbeiter und Ihre Rechenzentren miteinander verbindet. Im Allgemeinen bieten Rechenzentren eine Vielzahl von Verbindungsoptionen an, die redundant sein können (mit mehr als einem Netzwerkzugang für den Fall, dass einer davon ausfällt). Wichtiger als Geschwindigkeit, Vielfalt und Redundanz ist jedoch die Signal-Latenz. In Finanzanwendungen, die mit Börsen verbunden sind, können beispielsweise schon ein paar Nanosekunden einen Unterschied im Wert ausmachen, der beim Kauf und Verkauf der Aktien erzielt wird, was Millionen an vertaner Chancen bedeuten kann. Und bei der Verwaltung einer Ölpipeline oder eines Stromnetzes kann schon eine winzige Zeitdifferenz zu einem Leck oder einer Explosion führen.

Die Auswahl der Cloud-Architektur unter den vom Rechenzentrum angebotenen Optionen sollte daher gründlich überlegt sein. Hochfrequente Finanzanwendungen wie der Kauf und Verkauf von Aktien können von einer Co-Location in der Nähe der Börsenserver profitieren, während Systeme, die eine hohe Sicherheit für Bankgeschäfte erfordern, mit einer hybriden Architektur besser bedient sind. In diesem Sinne gilt: Je flexibler die Lösungen des Rechenzentrums sind, desto besser.

Zudem sollten Sie immer die Betriebszeitenstatistiken, das Lastvolumen und die Anzahl der Clients überprüfen und über Erfolgsgeschichten vorhandener Kunden des künftigen Vertragspartners informiert sein. Insbesondere das Wissen darüber, wie das Rechenzentrum mit potenziellen Krisen umgeht, gibt Aufschluss darüber, wie Ihre Beziehung zu dem Unternehmen sein wird, wenn etwas aus dem Ruder läuft. Versuchen Sie stets die Wiederherstellungsprozesse im Falle von natürlicher – und vom Menschen verursachter – Katastrophen nachzuvollziehen und simulieren Sie, wie Ihre Dienste sich verhalten werden, wenn sie einmal installiert sind und aus der Ferne laufen. Fragen Sie nach, was im Falle eines Erdbebens, Tsunamis, Stromausfalls, Ausfalls des Providernetzwerkes, eines Denial-of-Service-Angriffs, Hackerangriffs oder wenn eine Ratte an den Sprinklerrohren nagt, passiert.

Unterirdisch oder unter Wasser – vielleicht befindet sich Ihr nächstes Rechenzentrum nicht einmal hier auf der Erde. Wenn es nach der NASA und einigen Partnern geht, wird es in ein paar Jahren möglich sein, Ihre Daten im Orbit zu verarbeiten, aber natürlich mit einer etwas höheren Latenz als bei terrestrischen Netzwerken, was den Umfang der Einsatzmöglichkeiten stark einschränkt. Allerdings eröffnet die Datenverarbeitung im Weltraum neue Möglichkeiten hinsichtlich der Material- und Genforschung unter völlig anderen Bedingungen als denen, die auf der Erdoberfläche simuliert werden können. Bis dahin jedoch sind die vielen verfügbaren lokalen Optionen die deutlich verlässlichere Lösung.