Meta avalia novo design para data centers

https://network-king.net/wp-content/uploads/2022/12/dtacentermeta-769x414.jpg

De olho nas novas cargas de trabalho que estão vindo por aí no campo da Inteligência Artificial, a Meta pode estar avaliando um design remodelado para uma nova geração de data centers. A empresa de Mark Zuckerberg já interrompeu a construção de várias novas instalações, quem sabe, para estudar como devem ser os data centers do futuro, capazes de lidar com níveis mais altos de processamento de Inteligência Artificial (IA) e experiências no metaverso.

Os primeiros sinais vieram em meados de dezembro, com a notícia de que Meta estaria interrompendo ou cancelando a construção de dois novos prédios em seu campus na cidade de Odense, na Dinamarca, segundo matéria do site Data Center Dynamics (DCD). Posteriormente, outra construção afetada foi a do município norte-americano de Temple, no Texas.

Na ocasião, Peter Münster, gerente de comunicação da Meta para a região nóridca, afirmou que “suportar cargas de trabalho de IA em escala requer um tipo de data center diferente daqueles construídos para operar com serviços on-line regulares da empresa”. Por isso, estavam concentrando esforços na construção de uma nova geração de data centers.

De acordo com fontes do DCD, estão em reanálise alguns dos 11 projetos da Meta em desenvolvimento. Odense é o único lugar onde não há planos de novas instalações, mas se acredita que os data centers em fase final de construção com o design antigo serão concluídos como estão. Os demais projetos estão sendo “redefinidos”, o que provavelmente afetará cronogramas e exigirá novos contratos. Essas novas instalações serão resfriadas a líquido, afirmou a Meta no Open Compute Summit em outubro último.

Não está claro como essas recentes mudanças vão impactar os planos de investimentos da Meta. O diretor de estratégia da companhia, Dave Wehner, afirmou em outubro que novos data centers especificamente equipados com hardware para IA de nova geração estão sendo construídos e que há algum aumento de capital investido por conta da mudança na infraestrutura.

A pergunta que fica

É bem verdade que curiosidade mata, diz o provérbio, porém, no mundo dos negócios, ser curioso é uma prática recomendada. Nesse caso específico, poderíamos questionar o que exatamente a Meta está considerando ao pensar em mudar o design dos data centers.

Recentemente, durante a conferência Open Compute Project (OCP) de 2022, a Meta declarou estar trabalhando em inovações para ajudar superar obstáculos e impulsionar a IA para o futuro. Isso inclui desde novas plataformas para treinamento e execução de modelos de IA até soluções na área de rack e fornecimento de energia chamadas Open Rack v3 (ORV3).

O sistema ORV3 foi projetado para acomodar várias formas diferentes de resfriamento líquido, entre elas um modelo assistido por ar (AALC – Air-Assisted Liquid Cooling) e outro usando água das instalações. Também inclui um design opcional com conexões sem gotejamento entre os equipamentos de TI e o coletor de líquido que facilita as tarefas de manutenção e instalação.

Então, quando questionada por que tantos esforços concentrados nessas áreas, a Meta responde: a tendência de consumo crescente de energia e a demanda por avanços no setor de resfriamento líquido estão forçando a empresa a pensar de maneira diferente sobre todos os elementos da plataforma, do rack e sistemas de energia ao próprio design dos data centers.

E de onde virá essa necessidade crescente, na visão da Meta? Responde assim em seu blog: “à medida que avançamos para a próxima plataforma de computação, o metaverso, a necessidade de novas inovações abertas para potencializar a IA se torna ainda mais clara”.

O gráfico abaixo apresentado pela própria Meta mostra projeções do crescimento do consumo de energia por memória com banda larga (HBM) e módulo de treinamento, como essas tendências exigirão diferentes tecnologias de resfriamento ao longo dos anos e os limites associados a cada uma delas.

Projeções do crescimento do consumo de energia
Fonte: Meta

IA e metaverso na mira da Meta

No início de 2022, a Meta apresentou seu Research SuperCluster (RSC), colocando-o entre os supercomputadores mais rápidos do mundo. A máquina já estava sendo usada para treinar modelos de processamento de linguagem natural (NLP) e visão computacional aplicados à pesquisa com o objetivo de um dia executá-los com trilhões de parâmetros. Em última instância, o trabalho realizado pelo RSC abrirá caminho para o desenvolvimento da futura grande plataforma da Meta, o metaverso, na qual aplicações de IA desempenharão um papel importante.

Nesse cenário, supercomputadores de alto desempenho são fundamentais para treinamento de modelos complexos. A primeira geração desse tipo de infraestrutura, projetada em 2017, usava 22 mil GPUs NVIDIA V100 Tensor Core em um único cluster para executa 35 mil tarefas de treinamento por dia. Até agora, esse era o padrão de pesquisa da Meta em termos de desempenho, confiabilidade e produtividade.

Hoje, o RSC reúne 760 sistemas NVIDIA DGX A100 como nós computacionais em um total de 6.080 GPUs – cada GPU A100 sendo bem mais poderosa do que a V100 usada anteriormente. Cada DGX se comunica por meio de uma estrutura Clos NVIDIA Quantum 1600 Gb/s InfiniBand de dois níveis sem oversubscription. A camada de armazenamento tem 175 petabytes de Pure Storage FlashArray, 46 petabytes de cache em sistemas Penguin Computing Altus e 10 petabytes de Pure Storage FlashBlade.

Os planos para RSC é aumentar o número de GPUs de 6.080 para 16.000 a fim de elevar o desempenho de treinamento de IA em mais de 2,5 vezes. A estrutura InfiniBand deve suportar até 16.000 portas em uma topologia de duas camadas sem oversubscription. E o sistema de armazenamento terá uma largura de banda de 16 TB/s e capacidade na casa do exabytes para atender à crescente demanda.

FacebookTwitterLinkedIn