Subscribe to our Newsletter!
By subscribing to our newsletter, you agree with our privacy terms
Home > IT Monitoring > IT-Community auf dem Prüfstand: KI stellt Rechenzentren vor Herausforderungen
September 21, 2023
Die Hürden des KI-Fortschritts: In der rasch wachsenden Ära der Künstlichen Intelligenz (KI) sehen sich Rechenzentren mit großen Anforderungen konfrontiert. Sie müssen sich anpassen und umgestalten, um den stetig wachsenden Bedarf zu decken. Schneider Electric, ein führendes Unternehmen im Bereich Energiemanagement und Automatisierungssysteme, schätzt, dass KI derzeit eine Energieanforderung von beeindruckenden 4,3 GW verursacht. Diese Zahl soll voraussichtlich mit einer jährlichen Wachstumsrate von 26 % bis 36 % ansteigen. Bis zum Jahr 2028 ergibt das laut dieser Rechnung einen Energiebedarf von 13,5 GW bis 20 GW.
Angesichts dieser enormen Entwicklung hat Schneider Electric ein wegweisendes Dokument erstellt. Es beleuchtet, wie die Merkmale und Trends von KI Herausforderungen für sämtliche Aspekte der physischen Infrastruktur von Rechenzentren aufwerfen. Dies schließt Stromversorgungssysteme, Kühlung, Server-Racks und Managementsoftware ein. Darüber hinaus bietet das Dokument praktische Ratschläge zur Bewältigung dieser Hürden und wirft einen Blick in die Zukunft, um zu skizzieren, wie das Design von Rechenzentren in den kommenden Jahren aussehen könnte. Für die IT-Community ist diese Ressource von unschätzbarem Wert, um sich auf die KI-gesteuerte Zukunft vorzubereiten.
Die unaufhaltsame Welle der Künstlichen Intelligenz (KI) verlangt Rechenzentren einiges ab. Pankaj Sharma, geschäftsführender Vizepräsident im Bereich für sichere Energie und Rechenzentren bei Schneider Electric, unterstreicht die speziellen Herausforderungen, die sich im Zuge dieses Fortschritts für das Design und Management von Rechenzentren ergeben. Sharma betont: „KI-Anwendungen, insbesondere im Bereich Schulungscluster, verlangen immense Rechenleistung, die GPUs oder spezialisierte KI-Beschleuniger bereitstellen. Diese Anforderungen setzen unsere Rechenzentren unter erheblichen Druck, besonders in Bezug auf Energie- und Kühlungsinfrastruktur. Angesichts steigender Energiekosten und wachsender Umweltbedenken sollten Rechenzentren vermehrt auf energieeffiziente Hardware setzen. Darunter fallen Hochleistungs-Strom- und Kühlungssysteme sowie erneuerbare Energiequellen, um Betriebskosten zu senken und den ökologischen Fußabdruck zu minimieren.“
Laut dem Leitfaden, den Sharma zitiert, lassen sich die Herausforderungen in der physischen Infrastruktur von Rechenzentren auf vier KI-Merkmale und Trends zurückführen: KI-Workloads (Schulung und Schlussfolgerung), thermische Designleistung (TDP) von GPUs, Netzwerklatenz sowie die Größe von KI-Clustern.
Die KI-Workloads allein bergen eine Reihe von Herausforderungen: (1) Die Implementierung einer 120/208 V-Verteilung gestaltet sich als unpraktikabel; (2) kleine Stromverteilungsblöcke führen zu Platzverschwendung; (3) Standard-Rack-Stromverteilungseinheiten (PDUs) von 60/63 A sind schwer umzusetzen; (4) Lichtbögen erhöhen das Risiko und erschweren die Arbeitsabläufe; (5) ein Mangel an Lastvielfalt steigert das Risiko von auslösenden Überlastschutzschaltern; (6) hohe Rack-Temperaturen bergen Gefahren und erhöhen das Fehlerpotenzial.
Was die thermische Designleistung betrifft, so ziehen Server-Cluster für KI-Trainings eine Umwandlung von Luftkühlung auf Flüssigkühlung nach sich. Doch auch in weniger dichten Clustern und bei Berechnungsservern, die auf traditionelle Kühlung setzen, stehen tiefgreifende Herausforderungen bevor. Als Hauptprobleme im Bereich Kühlung benennt der Leitfaden: (1) Luftkühlung, die für KI-Cluster mit über 20 kW pro Rack nicht ausreicht; (2) Mangel an standardisierten Designs und Standortbeschränkungen, die die Einführung von Flüssigkühlung erschweren; (3) Unsicherheit bezüglich zukünftiger thermischer Designleistungen (TDPs), was das Risiko veralteter Kühlungsdesigns erhöht; (4) Unerfahrenheit, die Installation, Betrieb und Wartung erschwert; (5) das gesteigerte Risiko von Lecks bei Flüssigkühlungssystemen sowie (6) begrenzte Optionen für den nachhaltigen Einsatz von Flüssigkühlung.
Bei Server-Racks tauchen vier zentrale Probleme im Kontext von KI-Workloads auf: (1) Standardbreite-Racks, die keinen Raum für Strom- und Kühlungseinrichtungen bieten; (2) Standardtiefe-Racks, die nicht genug Platz für tiefe KI-Server und Verkabelung bieten, (3) Standardhöhe-Racks, die nicht die erforderliche Anzahl von Servern aufnehmen können; (4) Standard-Racks, die das Gewicht von KI-Ausrüstung nicht tragen können.
Das Nebeneinander von hochdichten, flüssigkeitsgekühlten Clustern und herkömmlichen, luftgekühlten IT-Systemen stellt hohe Anforderungen an fortschrittliche Management-Software. Selbst wenn einige KI-Trainings-Workloads nicht zwingend eine hohe Verfügbarkeit erfordern, drohen Ausfallzeiten benachbarter, geschäftskritischer Racks aufgrund von unzureichendem Design und Überwachung. Zwei zentrale Herausforderungen im Kontext von Managementsoftware und hochdichten KI-Trainings-Workloads sind: (1) die Bewältigung hoher Leistungsdichten und die Anforderungen von KI-Clustern, die Unsicherheiten im Design hervorrufen sowie (2) kleinere Fehlermargen, die betriebliche Risiken in einer dynamischen Umgebung erhöhen.
Der Leitfaden enthält Richtlinien zur Bewältigung dieser Herausforderungen und präsentiert einige vielversprechende Technologien und Designansätze: (1) speziell auf KI optimierte rPDUs (Rack PDU); (2) Durchschnittsspannung für 415/240 V-Transformatoren; (3) Festkörpertransformatoren, (4) Festkörperschutzschalter; (5) nachhaltige Dielektrikum-Fluide; (6) ultratiefe IT-Racks sowie (7) erweiterte Interaktion und Optimierung in Verbindung mit Stromnetzen.
Oktober 26, 2023
September 28, 2023
September 15, 2023
September 10, 2023
September 01, 2023
August 28, 2023
August 22, 2023
August 07, 2023
Previous
Cisco kauft Splunk für 28 Milliarden Dollar: Was Sie wissen müssen
Next
Europa: Hohe Nachfrage nach Rechenzentren auch im zweiten Quartal