Meta presenta un nuevo diseño de centro de datos para IA

Meta Signage Logo on Top of Glass Building.
Sheila Zabeu -

mayo 29, 2023

Como parte de un plan para construir una nueva generación de infraestructuras para la Inteligencia Artificial (IA), Meta ha revelado recientemente algunos detalles sobre los avances en este campo, entre ellos un nuevo diseño optimizado de centro de datos, así como el primer chip de la empresa específico para ejecutar modelos de IA y la segunda fase de un superordenador con 16.000 GPU para la investigación en IA. Según Meta, estos esfuerzos le permitirán desarrollar modelos de IA más grandes y sofisticados y, a continuación, desplegarlos eficientemente a escala.

Desde la apertura de su primer centro de datos en 2010, Meta ha ido construyendo una infraestructura global para su familia de aplicaciones. Según la empresa, la IA ha sido una parte importante de estos sistemas durante muchos años, incluyendo elementos como el hardware Big Sur, el desarrollo del marco de aprendizaje automático PyTorch y el superordenador para la investigación en IA.

Ahora, el nuevo diseño del centro de datos podrá trabajar con futuras generaciones de hardware centrado en el entrenamiento y la inferencia de IA. Contará con un diseño optimizado capaz de soportar hardware refrigerado por líquido y una red de IA de alto rendimiento que conectará miles de chips para clústeres de entrenamiento de IA. También será más rápido y rentable de construir y complementará otras nuevas piezas de hardware, como el Meta Scalable Video Processor (MSVP), la primera solución ASIC desarrollada internamente por Meta para alimentar cargas de trabajo de vídeo, un área en constante crecimiento en la empresa.

Por su parte, la próxima generación del acelerador de formación e inferencia de Meta (MTIA) se compone de los primeros chips aceleradores orientados a las cargas de trabajo de inferencia de IA. Ofrece mayor potencia y eficiencia de cálculo que las CPU y está personalizado para las cargas de trabajo internas de Meta. Al adoptar los chips MTIA y las GPU, Meta puede ofrecer mejor rendimiento, menor latencia y más eficiencia.

La primera generación de MTIA se presentó en 2020. Ahora, este acelerador de inferencia forma parte de una solución de pila completa que incluye chip, PyTorch y plantillas de recomendación. Se fabrica utilizando el proceso de 7 nm de TSMC y funciona a 800 MHz, ofreciendo 102,4 TOPS (teraoperaciones por segundo) con precisión INT8 y 51,2 TFLOPS (teraoperaciones de coma flotante por segundo) con precisión FP16. Tiene una potencia de diseño térmico (TDP) de 25 W.

En el campo de los superordenadores, la noticia desvelada por Meta tiene que ver con la segunda fase del RSC, que la empresa considera uno de los modelos centrados en IA más rápidos del mundo. Está construido para entrenar la próxima generación de grandes modelos de IA y trabajar con nuevas herramientas de realidad aumentada, sistemas de comprensión de contenidos, tecnología de traducción y mucho más. Cuenta con 16.000 GPU, todas accesibles a través de la malla de red Clos, que dispone del ancho de banda necesario para dar servicio a cada uno de los 2.000 sistemas de entrenamiento.

El RSC puede alcanzar casi 5 exaflops de potencia de cálculo, lo que significa que puede realizar un quintillón o un billón de billones de cálculos por segundo. Este nivel de rendimiento puede alcanzarse utilizando 2.000 sistemas NVIDIA DGX A100 como nodos de cálculo del RSC, un total de 16.000 GPU NVIDIA A100 Tensor Core, conectadas a través de una malla de redes NVIDIA Quantum InfiniBand de 16 Tb/s.

Según Meta, algunos proyectos que utilizan CSR ya le están permitiendo acelerar la investigación en áreas como LLM (Large Language Model)traducción universal del habla y demostración de teoremas. Meta está observando el rendimiento de los primeros proyectos para entender cómo gestionar mejor la asignación de GPU y extraer otras lecciones que ayuden en el futuro desarrollo del superordenador. Ya ha aprendido, por ejemplo, que la asignación de capacidad puede adoptar un modelo de calidad de servicio dinámico para reducir la contención de recursos en las 16.000 GPU. En colaboración con Penguin Computing, también ha mejorado la gestión general del clúster y ha conseguido mantener la disponibilidad por encima del 95% de forma constante.

Mientras tanto…

Durante la Conferencia Internacional de Supercomputación (ISC) celebrada en Alemania, Intel dio más detalles sobre un chip de IA cuyo lanzamiento está previsto para 2025. Según Jeff McVeigh, vicepresidente del grupo de supercomputación de Intel, la plataforma Falcon Shores ya no reunirá CPU y GPU en una XPU, argumentando que el mercado había cambiado tanto que ya no tenía sentido seguir con la integración. Ahora Falcon Shores será sólo una GPU con 288 gigabytes de memoria y procesamiento en coma flotante de 8 bits.

“Cuando las cargas de trabajo son fijas, cuando está muy claro que no van a cambiar drásticamente, la integración es genial”, explica McVeigh, afirmando que actualmente las cargas de trabajo de IA y HPC son demasiado dinámicas para que la integración tenga sentido.

La decisión de no seguir adelante con la arquitectura combinada CPU-GPU tiene que ver con el cambio de estrategia de Intel para hacer frente al liderazgo de Nvidia en el mercado de chips de IA, y también con el próximo chip MI300 de AMD.

Mercado de los centros de datos y la IA

Una consecuencia directa del crecimiento del mercado de la IA Generativa, que se espera que alcance los 126.500 millones de dólares en 2031 a una tasa anual compuesta del 32%, es el aumento de la demanda de recursos de los centros de datos. Debido a esto, también está creciendo la necesidad de mayores densidades de potencia de los sistemas informáticos que soportan las aplicaciones de IA. Esto plantea retos a los centros de datos existentes, especialmente a las instalaciones más antiguas.

“Esta situación hace que el paso a los servicios en la nube sea imperativo para muchas organizaciones, aunque también deben decidir cómo gestionar sus infraestructuras e instalaciones actuales”, afirma Chris Street, director de centros de datos de JLL en una entrevista con Tech Wire Asia.

Otra preocupación, más allá de la posible exclusión de empresas con poca capacidad para invertir en cargas de trabajo de IA, tiene que ver con la sostenibilidad. Según Street, es necesaria la colaboración entre el sector de los centros de datos, otras empresas tecnológicas, organismos gubernamentales, reguladores y comunidades para impulsar los esfuerzos de sostenibilidad. “Estos esfuerzos empiezan por evaluar cómo se alinean las estrategias de los centros de datos con las metas y objetivos corporativos, así como las estrategias operativas y las auditorías de terceros proveedores de servicios”, explica Street.