Meta evaluiert neues Design für Rechenzentren

Sheila Zabeu -

Dezember 29, 2022

Im Hinblick auf neue Arbeitslasten, die sich im Bereich der künstlichen Intelligenz abzeichnen, prüft Meta möglicherweise ein reoptimiertes Design für eine neue Generation von Rechenzentren. Das Unternehmen von Mark Zuckerberg hat bereits den Bau mehrerer Einrichtungen gestoppt. Vielleicht um zu untersuchen, wie zukünftige Rechenzentren aussehen sollten – insbesondere wenn sie in der Lage sein sollen, höhere Verarbeitungsgrade von Künstlicher Intelligenz (KI) und Experimente im Metaverse zu bewältigen.

Erste Anzeichen, die in diese Richtung deuteten, gab es Mitte Dezember: Meta verlautbarte, dass sie den Bau von zwei neuen Gebäuden auf dem eigenen Campus in Odense, Dänemark, unter- beziehungsweise sogar abbrechen würden, wie auf der Website von Data Center Dynamics (DCD) zu lesen ist. Wenig später war ein weiteres Gebäude in der nordamerikanischen Gemeinde Temple, Texas, betroffen.

Peter Münster, der Kommunikationsmanager von Meta für die nordische Region, erklärte damals, dass die Unterstützung von KI-Workloads in großem Maßstab eine andere Art von Rechenzentrum erfordert als die, die für den Betrieb der regulären Online-Dienste des Unternehmens gebaut wurden. Daher konzentriere man sich auf die Entwicklung und Umsetzung einer neuen Generation von Rechenzentren.

DCD-Quellen zufolge werden einige der insgesamt elf in der Entwicklung befindlichen Projekte von Meta neu geprüft. Odense ist der einzige Ort, an dem es keine Pläne für neue Einrichtungen gibt. Man nimmt jedoch an, dass die Rechenzentren, die sich in der letzten Bauphase mit dem alten Design befinden, noch so wie sie geplant waren, fertiggestellt werden. Die übrigen Projekte werden „neu entwickelt“, was sich sehr wahrscheinlich auf die Timeline auswirken und neue Verträge erfordern wird. Auf dem Open Compute Summit im vergangenen Oktober sagte Meta, dass diese neuen Einrichtungen über eine Flüssigkeitskühlung verfügen.

Es ist unklar, wie sich diese jüngsten Änderungen auf die Investitionspläne von Meta auswirken. Der Chief Strategy Officer des Unternehmens, Dave Wehner, sagte im Oktober, dass man neue Rechenzentren, die explizit mit Hardware für die KI der nächsten Generation ausgestattet sind, entwickeln wird. Aufgrund geänderter Infrastrukturen werde das investierte Kapital ansteigen.

Die Frage, die bleibt

Die Frage, die sich letztlich stellt, ist: Was genau plant Meta, wenn das Design der Rechenzentren in solch großem Maß geändert werden soll?

Kürzlich erklärte das Unternehmen auf der Konferenz Open Compute Project (OCP) 2022, dass es an Innovationen arbeite, um Hindernisse zu überwinden und die KI in die Zukunft zu führen. Dazu gehören neue Plattformen für das Training und die Ausführung von KI-Modellen sowie Rack- und Stromversorgungslösungen namens Open Rack v3 (ORV3).

Das ORV3-System ist für verschiedene Formen der Flüssigkeitskühlung ausgelegt, darunter ein Modell mit luftunterstützter Flüssigkeitskühlung (AALC) und ein weiteres mit Pflanzenwasser. Es umfasst auch ein optionales Design mit tropffreien Verbindungen zwischen IT-Geräten und dem Flüssigkeitsverteiler, was die Wartung und Installation erleichtert.

Auf die Frage, warum der Fokus auf diesen Technologien liege, antwortete Meta: Der Trend zu steigendem Stromverbrauch und die Nachfrage nach Fortschritten im Bereich der Flüssigkeitskühlung zwingen das Unternehmen dazu, alle Elemente der Plattform – von den Rack- und Stromversorgungssystemen bis hin zum Design der Rechenzentren selbst – neu zu überdenken.

Und woher kommt laut Meta dieser wachsende Bedarf? Dieses Statement veröffentlichte das Unternehmen auf seinem Blog: „Während wir uns auf die nächste Computerplattform, das Metaverse, zubewegen, wird der Bedarf an neuen offenen Innovationen zur Unterstützung von KI noch deutlicher.“

Das von Meta zur Verfügung gestellte untenstehende Diagramm zeigt, wie der Energieverbrauch pro Breitband-Speicher (HBM) auf der Y-Achse und Trainingsmodule (X-Achse) zusammenhängen. Durch den erhöhten Energieverbrauch sind in den nächsten Jahren weitere Kühltechniken notwendig – bevor die Technologie an die Grenzen ihrer Möglichkeiten stößt.

Projektionen für das Wachstum des Energieverbrauchs — Quelle: Meta

KI und Metaverse im Visier von Meta

Anfang 2022 stellte Meta den iResearch SuperCluster (RSC) vor, der zu den schnellsten Supercomputern der Welt gehört. Er wurde bereits zum Trainieren von Modellen für die Verarbeitung natürlicher Sprache (NLP) und das Sehen von Computern in der Forschung eingesetzt. Ziel war es, den Supercomputer eines Tages mit Billionen von Parametern laufen zu lassen. Letztlich wird die Arbeit des RSC den Weg für die Entwicklung des Metaverse ebenen, in dem KI-Anwendungen eine wichtige Rolle spielen sollen.

In diesem Szenario sind Hochleistungs-Supercomputer für das Training komplexer Modelle von entscheidender Bedeutung: Die erste Generation dieser Art von Infrastruktur, die 2017 entwickelt wurde, verwendete 22.000 NVIDIA V100 Tensor Core GPUs in einem einzigen Cluster, um täglich insgesamt 35.000 Trainingsaufgaben auszuführen. Diese Anzahl gehörte zum Forschungsstandard von Meta in Bezug auf Leistung, Zuverlässigkeit und Durchsatz.

Heute vereint das RSC 760 NVIDIA DGX A100 Systeme als Rechenknoten mit insgesamt 6.080 GPUs – jeder A100-GPU ist weitaus leistungsfähiger als der zuvor verwendete V100. Jeder DGX kommuniziert über ein zweistufiges Clos NVIDIA Quantum 1600 Gb/s InfiniBand Framework ohne Überzeichnung. Die Speicherebene besteht aus 175 Petabyte Pure Storage FlashArray, 46 Petabyte Cache auf Penguin Computing Altus Systemen und 10 Petabyte Pure Storage FlashBlade.

KI Forschung mit Super Cluster — Quelle: Research SuperCluster

Für RSC ist geplant, die Anzahl der GPUs von 6.080 auf 16.000 zu erhöhen, um die KI-Trainingsleistung um mehr als das 2,5-Fache zu steigern. Das InfiniBand-Framework wird voraussichtlich bis zu 16.000 Ports in einer zweistufigen Topologie ohne Überzeichnung unterstützen. Das Speichersystem soll dabei eine Bandbreite von 16 TB/s und eine Kapazität im Exabyte-Bereich haben, um den stetig wachsenden Bedarf zu decken. Es bleibt abzuwarten, wie sich die Rechenleistung von Supercomputern weiterhin entwickeln wird.