Desafios para data centers diante do avanço da IA

Sheila Zabeu -

Setembro 20, 2023

O extraordinário crescimento do uso da Inteligência Artificial (IA) em vários setores de atividade está impondo desafios e exigindo mudanças no design e na operação dos data centers para que possam atender à demanda cada vez maior. Uma estimativa da Schneider Electric, empresa que atua na área de gestão e automação de sistemas energéticos, aponta que a IA representa 4,3 GW de demanda de energia atualmente, número que deve crescer a uma taxa anual composta de 26% a 36%, resultando em um total entre 13,5 GW a 20 GW até 2028.

Diante desse cenário, a Schneider Electric elaborou um documento no qual explica como atributos e tendências de IA podem gerar desafios para cada elemento de infraestrutura física dos data centers, incluindo sistemas de energia, refrigeração, racks e software de gerenciamento. Também oferece orientações sobre como enfrentar esses desafios e apresenta uma visão do que está por vir em termos de design de data centers.

Overview of AI workloads in data centers.

“Com o avanço da IA, estão surgindo exigências específicas em design e gerenciamento dos data centers. Para enfrentar os desafios, é importante considerar vários atributos e tendências em cargas de trabalho de IA que impactam tanto data centers novos como os já existentes”, afirma Pankaj Sharma, vice-presidente executivo da divisão de energia segura e negócios de data centers da Schneider Electric. “Aplicações de IA, especialmente clusters de treinamento, são altamente exigentes em termos de poder de processamento fornecido por GPUs ou aceleradores de IA especializados. Isso coloca uma pressão significativa sobre a infraestrutura de energia e refrigeração dos data centers. E, com a elevação dos custos de energia e das preocupações ambientais, os data centers precisam adotar hardware energeticamente eficiente, como sistemas de energia e refrigeração de alta eficiência, e fontes de energia renováveis para ajudar a reduzir os custos operacionais e a pegada de carbono”, acrescenta o executivo.

Segundo o guia, são quatro os atributos e tendências de IA subjacentes aos desafios da infraestrutura física dos data centers: cargas de trabalho de IA (treinamento e inferência), potência térmica de design (TDP, na sigla em inglês) das GPUs, latência das redes, e tamanho dos clusters de IA.

Já os desafios impostos pelas cargas de trabalho de IA são: (1) distribuição de 120/208 V impraticável para implantar; (2) blocos de distribuição de energia pequenos que desperdiçam espaço; (3) PDUs (unidades de distribuição de energia) de rack padrão 60/63 A impraticáveis para implantar; (4) riscos maiores gerados pelo arco elétrico que complicam as práticas de trabalho; (5) falta de diversidade de carga que aumenta o risco de desarme dos disjuntores a montante; e (6) altas temperaturas dos racks que aumentam o risco de falhas e outros perigos.

No quesito resfriamento, a densificação dos clusters de servidores para treinamento de IA está forçando a migração da refrigeração a ar para refrigeração líquida. Além disso, embora clusters e servidores de inferência menos densos ainda utilizem métodos de resfriamento de data centers mais convencionais, o estudo lista os principais desafios de resfriamento a serem enfrentados: (1) resfriamento a ar inadequado para clusters de IA acima de 20 kW/rack; (2) falta de projetos padronizados e as restrições dos locais que complicam a adoção da refrigeração líquida; (3) futuras TDPs desconhecidas que aumentam o risco de obsolescência dos projetos de refrigeração; (4) inexperiência que complica os processos de instalação, operação e manutenção; (5) refrigeração líquida que aumenta o risco de vazamentos nos racks; e (6) opções limitadas de fluidos para uso no resfriamento líquido de forma sustentável.

No caso dos racks, há quatro principais desafios gerados pelas cargas de trabalho de IA: (1) racks de largura padrão que não têm espaço para equipamentos de energia e resfriamento; (2) racks de profundidade padrão que não têm espaço para servidores de IA profundos e cabeamento; (3) racks de altura padrão que não têm espaço para o número necessário de servidores; e (4) racks padrão que não suportam o peso dos equipamentos de IA.

Manter clusters de alta densidade refrigerados a líquido junto com sistemas de TI tradicionais refrigerados a ar faz com que certas ferramentas de software de gerenciamento se tornem mais críticas. Além disso, mesmo que algumas cargas de trabalho de treinamento de IA possam não exigir alta disponibilidade, design e monitoramento inadequados podem provocar períodos inatividade de racks adjacentes críticos para os negócios. Os dois principais desafios relacionados ao software de gestão no contexto das cargas de treinamento de IA alta densidade são: (1) altas densidades de energia e a demanda por clusters de IA que geram incertezas no design; (2) margens de erro menores que aumentam os riscos operacionais em um ambiente dinâmico.

No guia, são apresentadas orientações para ajudar a enfrentar cada um desses desafios. Além disso, algumas futuras tecnologias e abordagens de design também deverão ajudar nessa empreitada: (1) rPDUs (rack PDU) otimizadas para IA; (2) tensão média para transformadores de 415/240 V; (3) transformadores de estado sólido; (4) disjuntores de estado sólido; (5) fluidos dielétricos sustentáveis; (6) racks de TI ultraprofundos; e (7) maior interação/otimização com os grids.