Problemas com energia são a principal causa de paralisação de data centers

Server room.
Sheila Zabeu -

Abril 12, 2023

Diz o ditado que é melhor prevenir do que remediar. No caso dos datacenters, isso não é diferente. E, para fazer a manutenção preventiva desses ambientes, nada melhor do que saber quais são as causas mais comuns de paralisação das operações para buscar evitá-las.

Segundo um estudo recente do Uptime Institute, as taxas de paralisação dos datacenters vêm caindo gradativamente nos últimos anos. Embora a maioria das instalações tenha experimentado períodos de interrupção das operações nos últimos três anos, apenas uma pequena proporção foi considerada grave ou severa. Casos graves têm como consequências parada de serviços e/ou operações com perdas financeiras, violações de conformidade, danos à reputação e problemas de segurança. Já os casos severos incluem consequências do mesmo tipo, mas em grau mais elevado. 

Uptime Institute global survey of it and data center managers 2019-2022

No entanto, a baixa frequência de casos graves e severos não é motivo de comemoração se considerarmos uma avaliação mais ampla. Quando ocorrem, as paralisações estão cada vez mais custosas em função da maior dependência dos serviços digitais — um quarto dos entrevistados disse que o caso mais recente de interrupção custou mais de US$ 1 milhão em custos diretos e indiretos. Outros 45% relataram custos entre US$ 100.000 e US$ 1 milhão.

Mergulhando nos detalhes do estudo, pode-se deduzir que a frequência das interrupções é relativamente alta, apesar das melhorias tecnológicas e da redundância física. Entretanto, não há evidências de que o número de interrupções nos datacenters esteja aumentando em relação à área geral de TI — e pode estar caindo lentamente. O Uptime Instituite está pesquisando mais sobre isso.

Entendendo as causas

Problemas com energia continuam sendo a principal causa de interrupções significativas por uma grande margem de diferença. As demais causas são muito menos comuns. No entanto, três outras razões se destacam como particularmente problemáticas: falhas de resfriamento, erros de software/sistema de TI e problemas de rede. A frequência de problemas com provedores terceirizados, por exemplo, software como serviço (SaaS), hospedagem e serviços de nuvem, estão aumentando.

On-site power problems remain the biggest cause of significant site outages by a large margin

Paralisações relacionadas a problemas de energia podem afetar instalações inteiras e interromper imediatamente a prestação de serviços. O diagnóstico e a restauração da energia podem ser feitos com rapidez, mas reiniciar sistemas de TI e sincronizar bancos de dados pode levar muitas horas. Além disso, panes energéticas podem danificar equipamentos e deixar datacenters sem operar por longos períodos.

A maior causa de quedas de energia são falhas em UPS (ironicamente, Uninterruptible Power Supply). Falhas em geradores e switches de transferência foram experimentadas por pouco mais de um quarto dos operadores, em uma pesquisa sobre resiliência de datacenters de 2023.

The breakdown of causes of these third-party outages, as perceived by the customers affected

Engenheiros do Uptime Institute explicam que modelos estáticos de UPS falham por vários motivos:

  • Ventiladores falham com frequência porque, em geral, são baratos e estão em constante operação.
  • Capacitores de absorção de amortecimento podem falhar devido ao desgaste.
  • Baterias falham por conta de longo tempo de uso e por não serem monitoradas de perto.
  • Inversores falham com menos frequência.

O estudo estima que o erro humano desempenha um papel em dois terços a quatro quintos de todas as interrupções nos datacenters. Tais erros são principalmente gerados por funcionários que não seguem os procedimentos ou por pelo fato de os próprios procedimentos estarem incorretos.

A edição atual da pesquisa anual do Uptime Institute usou três fontes primárias: Global Data Center Survey de 2022, realizada em abril e maio de 2022, com cerca de 830 operadores; Data Center Resiliency Survey de 2023, realizada em janeiro e fevereiro de 2023, com 739 entrevistados; informações públicas relatadas ou rastreadas pelo Uptime Institute em 2022.

Problemas com incêndio

O uso de baterias de íon-lítio está crescendo entre os datacenters. De acordo com Frost & Sullivan, essa categoria representava 15% do mercado de baterias para esses ambientes em 2020, mas a expectativa é que porcentagem alcance 38,5% até 2025.

No entanto, o Uptime Institute alerta que baterias de íon-lítio apresentam um risco de incêndio maior do que as baterias de chumbo-ácido reguladas por válvula, independentemente de seus produtos químicos e construção específicos – uma posição endossada pela National Fire Protection Association dos Estados Unidos e outros organismos reguladores. Como a quebra das células nas baterias de íon-lítio produz gases combustíveis (inclusive oxigênio) e o fogo se espalha descontroladamente, incêndios nessa situação são notoriamente difíceis de combater.

Muitos operadores de datacenters estão considerando como aceitável a relação risco-benefício das baterias de íon-lítio. Segundo uma pesquisa do Uptime Institute de 2021, quase metade dos operadores adotaram essa tecnologia em suas plantas, representando uma tendência de crescimento no uso desse tipo de bateria em relação ao patamar de cerca de um quarto nos três anos anteriores. A edição de 2022 constatou níveis ainda mais elevados de adoção.