Assine a newsletter semanal!
Políticas de privacidade
Assine a Newsletter!
Home > Monitoramento de TI > Monitoramento de rede > Como o Facebook desapareceu da Internet
Outubro 05, 2021
Ontem, às 15:51 UTC, a mídia digital começou a ferver: o Facebook e seus serviços afiliados WhatsApp e Instagram estavam todos fora do ar. Seus nomes DNS pararam de resolver e seus IPs de infraestrutura estavam inacessíveis. Era como se alguém tivesse “puxado os cabos” de seus data centers de uma só vez e os desconectado da Internet.
No fim do dia, o Facebook revelou alguns detalhes do que aconteceu internamente. Hoje, foi além nas explicações.
Alguém, durante uma manutenção de rotina, emitiu um comando com a intenção de avaliar a disponibilidade da capacidade do backbone global, que involuntariamente derrubou todas as conexões do backbone, desconectando efetivamente os data centers do Facebook em todo o mundo.
“Nossos sistemas são projetados para auditar comandos como esses para evitar erros como esse, mas um bug na ferramenta de auditoria a impediu de interromper o comando”, explicou Santosh Janardhan, VP de Engenharia e Infraestrutura do Facebook, em nova postagem no blog da empresa.
O problema era simples, mas a solução era complicada. “A causa subjacente desta interrupção também impactou muitas das ferramentas e sistemas internos que usamos em nossas operações diárias, complicando nossas tentativas de diagnosticar e resolver o problema rapidamente”, disse Janardhan. “Enquanto nossos engenheiros trabalhavam para descobrir o que estava acontecendo e por quê, eles enfrentaram dois grandes obstáculos: primeiro, não foi possível acessar nossos data centers por nossos meios normais porque suas redes estavam desligadas e, segundo, a perda total do DNS quebrou muitas das ferramentas internas que normalmente usamos para investigar e resolver interrupções como esta”, completou.
A Cloudflare também publicou uma postagem detalhada no blog sobre o que aconteceu, do ponto de vista externo, mostrando uma explosão rápida de atualizações do BGP pouco antes do início da interrupção. “Com essas retiradas”, escreveram Tom Strickx e Celso Martinho da Cloudflare, “o Facebook e seus sites efetivamente se desconectaram da Internet”.
Depois que a conectividade de rede de backbone foi restaurada em todas as regiões do data center do Facebook, tudo voltou com ela. Mas o problema não acabou – reativar os serviços de uma só vez poderia causar uma nova rodada de acidentes devido a um aumento repentino no tráfego. Além disso, “os data centers individuais relatavam quedas no uso de energia na faixa de dezenas de megawatts e, repentinamente, reverter essa queda no consumo de energia poderia colocar em risco tudo, desde sistemas elétricos a caches”, comentou Janardhan .
“Felizmente, este é um evento para o qual estamos bem preparados graças aos exercícios de “tempestade” que temos executado há muito tempo. Em um exercício de tempestade, simulamos uma grande falha do sistema colocando um serviço, data center ou região inteira offline, testando toda a infraestrutura e software envolvidos. A experiência com esses exercícios nos deu a confiança e a experiência para colocar as coisas novamente online e gerenciar cuidadosamente as cargas crescentes. No final, nossos serviços voltaram a funcionar com relativa rapidez, sem mais falhas em todo o sistema”, escreveu.
A internet, é claro, amou a coisa toda. Houve muitas piadas sobre o MySpace. Mas houve também quem tenha visto no ocorrido uma oportunidade de aprender e melhorar. Por exemplo, que tal promover uma ampla revisão para entender como tornar seus sistemas mais resilientes?
Muitas pessoas também usaram a indisponibilidade como uma chance de apelar para uma internet descentralizada (e em alguns casos, tentar vender pessoas em seu aplicativo social baseado em blockchain.) “Parabéns ao @ facebook por nos dar uma demonstração muito real de por que a mudança para uma Web 3 descentralizada é necessária e, de fato, inevitável “, tuitou o fundador do Polkadot e co-criador da Ethereum, Gavin Wood.
Abril 29, 2023
Abril 28, 2023
Abril 27, 2023
Março 28, 2023
Março 21, 2023
Existem muitas ferramentas e utilitários de monitoramento de rede por aí, que incluem tanto produtos comerciais quanto soluções de código aberto.
Janeiro 30, 2023
A rede moderna de hoje deve ser tão ágil para implantar e mudar quanto as outras tecnologias que ela suporta.
Janeiro 26, 2023
Hoje, a computação em nuvem é uma parte crucial da infraestrutura de TI de muitas empresas, ajudando-as a fornecer seus serviços de maneira mais distribuída, econômica e segura.
Novembro 26, 2022
Previous
Cultura de segurança em OT precisa amadurecer
Next
Sustentabilidade chega às operações de TI