Home > Monitoreo > Centro de datos > Nace un estándar de comunicación para sistemas de IA en centros de datos

Nace un estándar de comunicación para sistemas de IA en centros de datos

Sheila Zabeu -

junio 14, 2024

En respuesta al dominio de NVidia, se ha formado un grupo de grandes empresas tecnológicas para desarrollar un nuevo estándar de comunicación de alta velocidad y baja latencia para sistemas de Inteligencia Artificial (IA) enlazados en centros de datos. El consorcio creará el estándar Ultra Accelerator Link (UALink) e incluirá a AMD, Broadcom, Cisco, Google, Hewlett Packard Enterprise (HPE), Intel, Meta y Microsoft.

El objetivo del consorcio UALink es definir y establecer una norma abierta para que los aceleradores de IA se comuniquen con mayor eficacia. UALink permitirá a los OEM, los profesionales informáticos y los integradores de sistemas disponer de un camino más fácil hacia la integración, más flexibilidad y escalabilidad en los centros de datos que operen con soluciones de IA.

Más concretamente, el grupo desarrollará una especificación para definir interconexiones de alta velocidad y baja latencia para una comunicación escalable entre aceleradores y conmutadores en clusters de computación de IA.

Según Tom’s Hardware, el objetivo de UALink en su especificación 1.0, que debería estar disponible en el tercer trimestre de 2024, es interconectar hasta 1.024 aceleradores en un pod de computación de IA. Tendrá que competir con NVLink de NVidia que, muy probablemente por este motivo, no forma parte de la nueva asociación.

La primera gran diferencia entre UALink y NVlink es el enfoque de norma abierta del primero, que contrasta con la naturaleza propietaria del segundo. El propósito de UALink, al ser abierto, es estimular la colaboración y el desarrollo conjunto en la industria, acelerando los avances en el hardware de IA de múltiples proveedores.

NVidia frente a los demás

La publicación HPCwire, que cubre el sector de los ordenadores de alto rendimiento desde 1987, explica que existen tres formas de conectar las GPU:

1. Por bus PCI, en servidores que suelen admitir de 4 a 8 GPU en el mismo bus. Este número puede crecer hasta 32 utilizando tecnologías como el tejido de memoria GigaIO FabreX.

2. Mediante la interconexión de servidores con GPU, utilizando redes Ethernet o InfiniBand. Ethernet ha sido durante mucho tiempo el estándar elegido para las redes informáticas, pero recientemente ha recibido una mejora de rendimiento con la creación del Consorcio Ultra Ethernet, del que NVidia es básicamente propietaria exclusiva del mercado InfiniBand. Según HPCwire, el Ultra Ethernet Consortium se creó para ser el “InfiniBand” de todos los demás.

3. Interconexión entre GPU: Reconociendo la necesidad de conexiones más rápidas y escalables para las GPU, NVidia ha desarrollado NVLink, capaz de transferir datos a velocidades de 1,8 terabytes por segundo entre GPU. Los switches NVLink a nivel de rack pueden soportar hasta 576 GPU totalmente conectadas en un tejido de computación. Las GPU conectadas a través de NVLink se denominan pods. Aquí es donde ahora funcionará el nuevo UALink.

“En muy poco tiempo, la industria tecnológica ha asumido los retos que la IA y la HPC (computación de alto rendimiento) han puesto de manifiesto. La interconexión de aceleradores como las GPU requiere una perspectiva holística para mejorar la eficiencia y el rendimiento. En el Consorcio Ultra Ethernet, creemos que el enfoque de UALink para resolver los problemas de los clústeres de vainas complementa nuestro propio protocolo de expansión, y estamos deseando colaborar en la creación de una solución abierta, respetuosa con el ecosistema y aplicable a todo el sector que aborde ambos tipos de necesidades en el futuro”, afirma J. Metz, presidente del Consorcio Ultra Ethernet.

Rendimiento de NVLink

Podría decirse que, en términos de escalabilidad y rendimiento, UALink y NVLink están a la par. UALink se está desarrollando para conectar hasta 1.024 aceleradores dentro de un pod de computación de IA.

Según NVidia, la quinta generación de NVLink mejora significativamente la escalabilidad de los sistemas multi-GPU de mayor tamaño. Una sola GPU Blackwell Tensor Core puede trabajar con hasta 18 conexiones NVLink a 100 gigabytes por segundo (GB/s) para un ancho de banda total de 1,8 terabytes por segundo (TB/s), el doble que la generación anterior y más de 14 veces el ancho de banda de PCIe Gen5.

Dado que NVLink de NVidia está actualmente bien establecido en el segmento de la interconexión de sistemas de IA y que se espera que los primeros productos UALink no lleguen al mercado hasta principios de 2025, la expectativa es que UALink no tenga un volumen relevante de implementaciones hasta 2026, especula el sitio web STH.