Subscribe to our Newsletter!
By subscribing to our newsletter, you agree with our privacy terms
Home > IT Monitoring > Data Center > Meta stellt neues Design für KI-Rechenzentren vor
Mai 31, 2023
Im Rahmen eines Plans zum Aufbau einer neuen Infrastrukturgeneration für künstliche Intelligenz (KI) hat Meta kürzlich einige Details zu Fortschritten in diesem Bereich bekannt gegeben. Dazu gehören ein neues, optimiertes Rechenzentrumsdesign sowie der erste Chip des Unternehmens speziell für die Ausführung von KI-Modellen. Auch die zweite Phase eines Supercomputers mit 16.000 GPUs für die KI-Forschung war Teil der neuen Technologien. Nach Angaben von Meta werden es diese Maßnahmen dem Unternehmen ermöglichen, umfangreichere sowie anspruchsvollere KI-Modelle zu entwickeln und diese dann effizient in einem großen Maßstab einzusetzen.
Seit der Eröffnung seines ersten Rechenzentrums im Jahr 2010 hat Meta eine globale Infrastruktur für seine Produktfamilie aufgebaut. Nach Angaben des Unternehmens ist KI seit vielen Jahren ein wichtiger Bestandteil dieser Systeme. Dazu gehören Elemente wie die Big Sur Hardware, die Entwicklung des PyTorch Machine Learning Frameworks und der Supercomputer für die KI-Forschung.
Das neue Design des Rechenzentrums soll nun ermöglichen, mit zukünftigen Hardware-Generationen zu arbeiten, die sich auf KI-Training und -Inferenz konzentrieren. Es wird eine Optimierung beinhalten, die flüssigkeitsgekühlte Hardware und ein Hochleistungs-KI-Netzwerk unterstützt, das Tausende von Chips für KI-Trainingscluster verbindet. Auch soll der Bau von derartigen Rechenzentren schneller sowie kostengünstiger ablaufen. Das Design soll andere neue Hardwarekomponenten ergänzen, wie den Meta Scalable Video Processor (MSVP), Metas erste intern entwickelte ASIC-Lösung für die Ausführung von Video-Workloads – ein Bereich, der im Unternehmen ständig wächst.
Der Meta Training and Inference Accelerator (MTIA) der nächsten Generation besteht aus den ersten Beschleunigerchips, die auf KI-Inferenz-Workloads ausgerichtet sind. Er bietet eine höhere Rechenleistung sowie Effizienz als CPUs und ist auf die internen Arbeitslasten von Meta zugeschnitten. Durch den Einsatz von MTIA-Chips und GPUs kann Meta eine bessere Leistung, geringere Latenzzeiten und eine höhere Effizienz erreichen.
Die erste Generation von MTIA wurde im Jahr 2020 eingeführt. Inzwischen ist dieser Inferenzbeschleuniger Teil einer Komplettlösung, die Chip, PyTorch und Empfehlungsvorlagen umfasst. Er wird im 7-nm-Prozess von TSMC hergestellt, arbeitet mit 800 MHz und liefert 102,4 TOPS (Teraoperations pro Sekunde) bei INT8-Präzision und 51,2 TFLOPS (Floating Point Teraoperations pro Sekunde) bei FP16-Präzision – bei einer Thermal Design Power (TDP) von 25 W.
Im Bereich der Supercomputer betreffen die Neuigkeiten von Meta die zweite Phase des AI Research SuperClusters (RSC): Der Großrechner ist nach Ansicht des Unternehmens eines der schnellsten KI-Modelle der Welt. Er soll die nächste Generation großer KI-Modelle trainieren und unter anderem mit neuen Augmented-Reality-Tools, Systemen zum Verstehen von Inhalten sowie Übersetzungstechnologien arbeiten. Der RSC verfügt über 16.000 Grafikprozessoren, die alle über das Clos-Netzwerk erreichbar sind: Diese Netzwerkart verfügt über die nötige Bandbreite, um jedes der 2.000 Trainingssysteme zu bedienen.
Der RSC kann eine Rechenleistung von fast 5 Exaflops erreichen. Das heißt: Der Großrechner ist dazu fähig, eine Trillion Berechnungen pro Sekunde durchführen. Diese Leistung lässt sich mit 2.000 NVIDIA DGX A100 Systemen als Rechenknoten des RSC erreichen – also insgesamt 16.000 NVIDIA A100 Tensor Core GPUs, die über ein Netz von 16 Tb/s NVIDIA Quantum InfiniBand Netzwerken verbunden sind.
Nach Angaben von Meta ermöglichen bereits einige Projekte, die RSC nutzen, eine Forschungsbeschleunigung in Bereichen wie LLM (Large Language Model), universelle Sprachübersetzung und Theorembeweise. Meta beobachtet die Leistung der ersten Projekte, um zu verstehen, wie sich die Zuweisung von GPUs besser handhaben lässt. Auch sollen so weitere Erkenntnisse für die künftige Entwicklung des Supercomputers gewonnen werden. Dieser hat beispielsweise bereits gelernt, dass die Kapazitätszuweisung ein dynamisches QoS-Modell annehmen kann, um die Ressourcenkonkurrenz für die 16.000 GPUs zu verringern. In Zusammenarbeit mit Penguin Computing wurde auch das Gesamtmanagement des Clusters verbessert – und es ist gelungen, die Verfügbarkeit konstant über 95 % zu halten.
Auf der International Supercomputing Conference (ISC) in Deutschland hat Intel weitere Einzelheiten über einen KI-Chip bekannt gegeben, der im Jahr 2025 auf den Markt kommen soll. Laut Jeff McVeigh, Vizepräsident von Intels Supercomputing-Gruppe, wird die Falcon Shores-Plattform CPU und GPU nicht mehr in einer XPU zusammenführen: Der Markt habe sich so stark verändert, dass eine Integration nicht mehr sinnvoll sei. Jetzt wird Falcon Shores nur noch eine GPU mit 288 Gigabyte Speicher und 8-Bit-Fließkomma-Verarbeitung sein.
„Wenn die Arbeitslasten feststehen und wenn klar ist, dass sie sich nicht dramatisch ändern werden, ist die Integration vielversprechend“, erklärt McVeigh. Dazu stellt er fest, dass KI- und HPC-Arbeitslasten derzeit zu dynamisch sind, als dass eine Integration sinnvoll wäre.
Die Entscheidung, die kombinierte CPU-GPU-Architektur nicht weiterzuverfolgen, hat mit Intels geänderter Strategie zu tun: Das Unternehmen will auf Nvidias Führung auf dem Markt für KI-Chips reagieren, ebenso wie auf AMDs bevorstehenden MI300-Chip.
Der Markt für generative KI soll bis 2031 voraussichtlich 126,5 Milliarden US-Dollar bei einer jährlichen Wachstumsrate von 32 % erreichen – eine direkte Konsequenz dieses Wachstums ist die erhöhte Nachfrage nach Rechenzentrumsressourcen. Aus diesem Grund steigt auch der Bedarf an höheren Leistungsdichten der IT-Systeme, die KI-Anwendungen unterstützen. Dies bringt Herausforderungen für bestehende Rechenzentren mit sich – insbesondere für ältere Anlagen.
„Diese Situation macht den Wechsel zu Cloud-Diensten für viele Unternehmen unumgänglich, obwohl sie gleichzeitig entscheiden müssen, wie sie ihre derzeitige Infrastruktur und Anlagen verwalten wollen“, erläuterte Chris Street, Direktor für Rechenzentren bei JLL, in einem Interview mit Tech Wire Asia.
Der mögliche Ausschluss von Unternehmen mit geringen Möglichkeiten zur Investition in KI-Workloads ist ein akutes Problem. Eine weitere Herausforderung, die darüber hinausgeht, hängt mit dem Aspekt der Nachhaltigkeit zusammen: Street zufolge ist eine Zusammenarbeit zwischen der Rechenzentrumsbranche, anderen Technologieunternehmen, Regierungsbehörden, Regulierungsbehörden und Gemeinden erforderlich, um die Bemühungen um Nachhaltigkeit voranzutreiben. „Diese Bestreben beginnen mit der Bewertung, wie die Strategien von Rechenzentren mit den Unternehmenszielen und -vorgaben sowie den Betriebsstrategien und Prüfungen von Drittanbietern abgestimmt sind“, erklärt Street.
September 28, 2023
September 21, 2023
September 15, 2023
September 10, 2023
September 01, 2023
August 28, 2023
August 22, 2023
August 07, 2023
Previous
Nicht verpassen: Rechenzentrumsanbieter zum richtigen Zeitpunkt wechseln
Next
Wie Nachhaltigkeit Rechenzentren vor abrupten Veränderungen schützt