KI-Systemsprung: Neuer Kommunikationsstandard für Rechenzentren

Google Data Center
Sheila Zabeu -

Juni 18, 2024

Als Reaktion auf die Dominanz von NVidia formieren sich führende Tech-Unternehmen neu: Sie planen einen neuen Kommunikationsstandard für vernetzte Systeme der Künstlichen Intelligenz (KI) in Rechenzentren zu entwickeln – mit höchsten Geschwindigkeiten und niedriger Latenz. Das Konsortium plant, den Standard Ultra Accelerator Link (UALink) zu erstellen. Zu den Mitgliedern gehören neben AMD, Broadcom, Cisco und Google auch Hewlett Packard Enterprise (HPE), Intel, Meta sowie Microsoft.

Das Ziel des UALink-Konsortiums ist es, einen offenen Standard für die Kommunikation von KI-Beschleunigern zu definieren und zu etablieren. UALink soll Herstellern, IT-Experten und Systemintegratoren eine einfachere Einbindung, mehr Flexibilität und eine bessere Skalierbarkeit in Rechenzentren mit KI-Lösungen ermöglichen.

Konkret geht es dabei um die Entwicklung einer Spezifikation, die Hochgeschwindigkeits- und Niedriglatenz-Verbindungen für die skalierbare Kommunikation zwischen Beschleunigern und Switches in KI-Computing-Clustern definiert.

Laut Tom’s Hardware soll die 1.0-Spezifikation von UALink ab dem dritten Quartal 2024 verfügbar sein. Sie kann bis zu 1.024 Beschleuniger in einem KI-Computing-Pod vernetzen. UALink ist dann direkter Konkurrent von NVidias NVLink – aus diesem Grund wird das Unternehmen höchstwahrscheinlich kein Teil der neuen Vereinigung sein.

Der erste wesentliche Unterschied zwischen UALink und NVLink: der offene Ansatz von UALink im Gegensatz zum proprietären System von NVLink. Das Ziel von UALink ist es, durch Offenheit die Zusammenarbeit und gemeinsame Entwicklung in der Branche zu fördern. Die Spezifikation soll die Fortschritte der KI-Hardware verschiedener Anbieter beschleunigen.

NVidia im Vergleich

Das Portal HPCwire, das seit 1987 über den Sektor der Hochleistungsrechner berichtet, zeigt drei Wege auf, um Grafikprozessoren (GPUs) als Beschleuniger zu verbinden:

1. Über den PCI-Bus: in Servern, die im Allgemeinen 4 bis 8 GPUs auf demselben Bus unterstützen können. Technologien wie die GigaIO FabreX-Speicherstruktur lassen diese Zahl auf 32 ansteigen.

2. Durch die Vernetzung von Servern mit GPUs: unter Verwendung von Ethernet- oder InfiniBand-Netzwerken. Ethernet war lange Zeit der Standard für Computernetzwerke und erhielt kürzlich ein Leistungsupgrade durch die Gründung des Ultra Ethernet Consortiums. NVidia besitzt im Grunde den gesamten InfiniBand-Markt. Laut HPCwire formierte sich das Ultra Ethernet Consortium, um das „InfiniBand“ aller anderen Anbieter zu sein.

3. Interconnection zwischen GPUs: NVidia hat NVLink entwickelt, das Daten mit Geschwindigkeiten von 1,8 Terabyte pro Sekunde zwischen GPUs übertragen kann. NVLink-Switches auf Rack-Ebene können bis zu 576 vollständig verbundene GPUs in einem Computing-Fabric unterstützen. GPUs, die über NVLink verbunden sind, werden Pods genannt. Hier wird auch der neue UALink eingesetzt.

„In kürzester Zeit hat sich die Technologiebranche den Herausforderungen gestellt, die KI und HPC (High Performance Computing) mit sich bringen. Die Verbindung von Beschleunigern wie GPUs erfordert eine ganzheitliche Perspektive, um Effizienz und Leistung zu verbessern. Wir vom Ultra Ethernet Consortium sind der Meinung, dass der Ansatz von UALink zur Lösung von Pod-Cluster-Problemen unser eigenes Erweiterungsprotokoll ergänzt. Wir freuen uns darauf, gemeinsam an einer offenen, umweltfreundlichen, branchenweiten Lösung zu arbeiten, die zukünftig beide Arten von Bedürfnissen abdeckt“, sagt J Metz, Vorsitzender des Ultra Ethernet Consortiums.

In Bezug auf die Skalierbarkeit und Leistung sind UALink und NVLink gleichauf. UALinks Entwicklung zielt darauf ab, bis zu 1.024 Beschleuniger in einem KI-Computing-Pod zu verbinden.

Die Grafik visualisiert die Verbindung von Ultra-Beschleunigern zu einem KI-Computing-Pod.
Quelle: UALink Promoter Group

Laut NVidia verbessert die fünfte Generation von NVLink die Skalierbarkeit für größere Multi-GPU-Systeme erheblich. Eine einzelne NVIDIA Blackwell Tensor Core GPU kann mit bis zu 18 NVLink-Verbindungen bei 100 Gigabyte pro Sekunde (GB/s) arbeiten. Das entspricht einer Gesamtbandbreite von 1,8 Terabyte pro Sekunde (TB/s) – doppelt so viel wie bei der vorherigen Generation und mehr als das 14-fache der Bandbreite von PCIe Gen5.

NVidias NVLink ist derzeit im Segment der KI-Systemvernetzung gut etabliert und die ersten UALink-Produkte erscheinen nicht vor Anfang 2025 auf dem Markt. Daher spekuliert die Website STH, dass UALink erst 2026 in relevanten Mengen implementiert wird.