Subscribe to our Newsletter!
By subscribing to our newsletter, you agree with our privacy terms
Home > Monitoramento de TI > Datacenters > Meta apresenta novo design de data centers para IA
Maio 29, 2023
Parte de um plano para construir uma nova geração de infraestrutura para Inteligência Artificial (IA), a Meta revelou recentemente alguns detalhes sobre avanços nessa área, entre eles um novo design de data center otimizado, além do primeiro chip da empresa específico para executar modelos de IA e a segunda fase de um supercomputador com 16.000 GPUs para pesquisa em IA. Segundo a Meta, esses esforços vão permitir desenvolver modelos de IA maiores e mais sofisticados e, em seguida, implantá-los com eficiência em escala.
Desde a inauguração de seu primeiro data center em 2010, a Meta tem construído uma infraestrutura global para sua família de aplicações. Segundo a empresa, a IA tem sido uma parte importante desses sistemas há muitos anos, incluindo elementos como o hardware Big Sur, o desenvolvimento da estrutura de Machine Learning PyTorch e o supercomputador para pesquisa de IA.
Agora, o novo projeto de data centers poderá trabalhar com futuras gerações de hardware voltados para treinamento e inferência de IA. Terá um design otimizado capaz de suportar hardware refrigerado a líquido e uma rede de IA de alto desempenho conectando milhares de chips para clusters de treinamento de IA. Também será mais rápido e mais econômico de construir e complementará outras novas peças de hardware, como o MSVP (Meta Scalable Video Processor), primeira solução ASIC desenvolvida internamente pela Meta para alimentar cargas de trabalho de vídeo, uma área em constante crescimento na empresa.
Já a nova geração do MTIA (Meta Training and Inference Accelerator) é composta dos primeiros chips aceleradores direcionados a cargas de trabalho de inferência de IA. Oferece maior poder de computação e eficiência do que CPUs e é personalizada para cargas de trabalho internas da Meta. Ao adotar chips MTIA e GPUs, a Meta pode oferecer melhor desempenho, menor latência e mais eficiência.
A primeira geração do MTIA foi apresentada em 2020. Agora esse acelerador de inferência faz parte de uma solução de pilha completa que inclui chip, PyTorch e modelos de recomendação. É fabricado usando o processo da TSMC de 7 nm e opera a 800 MHz, fornecendo 102,4 TOPS (teraoperações por segundo) com precisão INT8 e 51,2 TFLOPS (teraoperações de ponto flutuanete por segundo) com precisão FP16. Tem uma potência térmica de design (TDP) de 25 W.
No campo de supercomputadores, a novidade divulgada pela Meta tem a ver com a segunda fase do RSC, que a empresa acredita ser um dos modelos voltados para IA mais rápidos do mundo. Foi construído para treinar a próxima geração de grandes modelos de IA e trabalhar com novas ferramentas de realidade aumentada, sistemas de compreensão de conteúdo, tecnologia de tradução e muito mais. Possui 16.000 GPUs, todas acessíveis pela malha de redes Clos que possui largura de banda para atender cada um dos 2.000 sistemas de treinamento.
O RSC consegue alcançar quase 5 exaflops de poder de computação, ou seja, pode realizar um quintilhão ou um bilhão de bilhões de cálculos por segundo. Esse nível de desempenho pode ser atingindo usando 2.000 sistemas NVIDIA DGX A100 como nós computacionais do RSC, um total de 16.000 GPUs NVIDIA A100 Tensor Core, conectados por meio de uma malha de redes NVIDIA Quantum InfiniBand de 16 Tb/s.
Segundo a Meta, alguns projetos usando RSC já estão permitindo acelerar pesquisas em áreas como LLM (Large Language Model), tradução universal de fala e prova de teoremas. A Meta está observando o desempenho dos primeiros projetos para entender como gerenciar melhor a alocação de GPUs e extrair outras lições que ajudem no desenvolvimento futuro do supercomputador. Já aprendeu, por exemplo, que a alocação de capacidade pode adotar um modelo de QoS dinâmico para reduzir a contenção de recursos das 16.000 GPUs. Trabalhando em parceria com a Penguin Computing, também melhorou a gestão geral do cluster e conseguir manter a disponibilidade acima de 95% consistentemente.
Durante a International Supercomputing Conference (ISC) realizada na Alemanha, a Intel deu mais detalhes sobre um chip para IA previsto para ser lançado em 2025. Segundo anunciou Jeff McVeigh, vice-presidente do grupo de supercomputação da Intel, a plataforma Falcon Shores não mais reunirá CPU e GPU em uma XPU, argumentando que o mercado mudou tanto que não fazia mais sentido prosseguir fazer a integração. Agora Falcon Shores será apenas uma GPU com 288 gigabytes de memória e processamento de ponto flutuante de 8 bits.
“Quando as cargas de trabalho são fixas, quando há uma muita clareza de que não vão mudar drasticamente, a integração é ótima”, explica McVeigh, afirmando que atualmente as cargas de trabalhode IA e HPC são muito dinâmicas para a integração fazer sentido.
A decisão de não prosseguir com a arquitetura combinada CPU-GPU tem a ver com a mudança de estratégia da Intel para enfrentar a liderança da Nvidia no mercado de chips para IA, e também o futuro chip MI300 da AMD.
Uma consequência direta do crescimento do mercado de IA Generativa, que deve alcançar US$ 126,5 bilhões até 2031, a uma taxa composta anual de 32%, é a maior demanda por recursos de data centers. Por conta disso, também cresce a necessidade por maiores densidades de energia dos sistemas de TI que dão suporte às aplicações de IA. Isso traz desafios para os data centers existentes, especialmente instalações mais antigas.
“Essa situação torna a mudança para serviços em nuvem imperativa para muitas organizações, embora também devam decidir como gerenciar a infraestrutura e as instalações atuais”, afirmou Chris Street, diretor de data centers da JLL em entrevista ao Tech Wire Asia.
Outra preocupação além da eventual exclusão de empresas com pouca capacidade de investir em cargas de trabalho de IA tem a ver com sustentabilidade. Segundo Street, é preciso haver uma colaboração entre o setor de data centers, outras empresas de tecnologia, agências governamentais, reguladores e comunidades para impulsionar os esforços de sustentabilidade. “Esses esforços começam com a avaliação de como as estratégias dos data centers estão alinhanhadas com as metas e objetivos das empresas e também com as estratégias operacionais e auditorias de provedores de serviços terceirizados”, explica Street.
Setembro 27, 2023
Setembro 20, 2023
Setembro 13, 2023
Setembro 08, 2023
Agosto 31, 2023
Agosto 25, 2023
Agosto 17, 2023
Agosto 01, 2023
Previous
IA Generativa: data centers precisam ser reformulados?
Next
Demanda por data centers em Latam será maior que no restante do mundo