Nasce um padrão de comunicação para sistemas de IA em data centers

Google Data Center
Sheila Zabeu -

Junho 14, 2024

Em resposta ao domínio da NVidia, um grupo de grandes empresas de tecnologia se formou para desenvolver um novo padrão de comunicação de alta velocidade e baixa latência para sistemas de Inteligência Artificial (IA) vinculados em data centers. O consórcio criará o padrão Ultra Accelerator Link (UALink) e terá como membros AMD, Broadcom, Cisco, Google, Hewlett Packard Enterprise (HPE), Intel, Meta e Microsoft.

O objetivo do UALink Consortium é definir e estabelecer um padrão aberto para que aceleradores de IA se comuniquem de forma mais eficaz. O UALink permitirá que OEMs, profissionais de TI e integradores de sistemas tenham um caminho mais fácil para integração, mais flexibilidade e escalabilidade em data centers que operam soluções de IA.

Mais especificamente, o grupo desenvolverá uma especificação para definir interconexões de alta velocidade e baixa latência para comunicação em escala entre aceleradores e switches em clusters de computação de IA.

Segundo o site Tom’s Hardware, o UALink tem como meta em sua especificação 1.0, que deve estar disponível no terceiro trimestre de 2024, interconectar até 1.024 aceleradores em um pod de computação de IA. Deve competir com o NVLink da NVidia que, muito provavelmente por isso, não faz parte da nova associação.

A primeira grande diferença entre UALink e NVlink é a abordagem de padrão aberto do primeiro que contrasta com a natureza proprietária do segundo. A proposta do UALink, ao ser aberto, é estimular a colaboração e o desenvolvimento conjunto da indústria, acelerando os avanços do hardware para IA de vários fornecedores.

NVidia versus os demais

A publicação HPCwire, que cobre o setor de computadores de alto desempenho desde 1987, explica que há três maneiras de conectar GPUs:

 1. Por barramento PCI, em servidores que, em geral, pode suportar de 4 a 8 GPUs no mesmo barramento. Esse número pode crescer para 32 usando tecnologias como a malha de memória GigaIO FabreX.

2. Por interconexão entre servidores com GPUs, usando redes Ethernet ou InfiniBand. A Ethernet tem sido o padrão preferido para redes de computadores, mas recentemente ganhou um upgrade de desempenho com a criação do Consórcio Ultra Ethernet, do qual a NVidia porque detêm basicamente a propriedade exclusiva do mercado InfiniBand. Segundo a HPCwire, o Consórcio Ultra Ethernet foi criado para ser o “InfiniBand” de todos os demais.

3. Interconexão entre GPUs: Reconhecendo a necessidade de conexões mais rápidas e escaláveis para GPUs, a NVidia desenvolveu o NVLink, capaz de transferir dados na velocidade de 1,8 terabytes por segundo entre GPUs. Switches NVLink no nível dos racks pode suportar até 576 GPUs totalmente conectadas em uma malha de computação. GPUs conectadas via NVLink são chamadas de pods. É nessa seara que agora trabalhará o novo UALink.

“Em um período muito curto de tempo, a indústria de tecnologia abraçou os desafios que a IA e a HPC (computação de alto desempenho) revelaram. A interconexão de aceleradores, como as GPUs, requer uma perspectiva holística para melhorar a eficiência e o desempenho. No Consórcio Ultra Ethernet, acreditamos que a abordagem da UALink para resolver problemas de cluster dos pods complementa nosso próprio protocolo de expansão, e estamos ansiosos para colaborar na criação de uma solução aberta, amigável ao ecossistema e para todo o setor, que atenda a ambos os tipos de necessidades no futuro”, afirma J. Metz, presidente do Consórcio Ultra Ethernet.

Pode-se dizer que em termos de escalabilidade e desempenho, UALink e  NVLink se equiparam. O UALink está sendo desenvolvido para conectar até 1.024 aceleradores dentro de um pod de computação de IA.

Fonte: UALink Promoter Group

Já a quinta geração do NVLink melhora significativamente a escalabilidade para sistemas multiGPUs maiores, segundo a NVidia. Uma única GPU NVIDIA Blackwell Tensor Core pode trabalhar com até 18 conexões NVLink de 100 gigabytes por segundo (GB/s) em uma largura de banda total de 1,8 terabytes por segundo (TB/s), o dobro da largura de banda da geração anterior e mais de 14 vezes a largura de banda do PCIe Gen5.

Visto que o NVLink da NVidia está atualmente bem estabelecido no segmento de interconexão de sistemas de IA e que os primeiros produtos UALink devem chegar ao mercado apenas no início de 2025, a expectativa é que o UALink tenha um volume relevante de implementações somente em 2026, especula o site STH.