Como o Facebook desapareceu da Internet

Cristina De Luca -

Outubro 05, 2021

Ontem, às 15:51 UTC, a mídia digital começou a ferver: o Facebook e seus serviços afiliados WhatsApp e Instagram estavam todos fora do ar. Seus nomes DNS pararam de resolver e seus IPs de infraestrutura estavam inacessíveis. Era como se alguém tivesse “puxado os cabos” de seus data centers de uma só vez e os desconectado da Internet.

No fim do dia, o Facebook revelou alguns detalhes do que aconteceu internamente. Hoje, foi além nas explicações.

Alguém, durante uma manutenção de rotina, emitiu um comando com a intenção de avaliar a disponibilidade da capacidade do backbone global, que involuntariamente derrubou todas as conexões do backbone, desconectando efetivamente os data centers do Facebook em todo o mundo. 

“Nossos sistemas são projetados para auditar comandos como esses para evitar erros como esse, mas um bug na ferramenta de auditoria a impediu de interromper o comando”, explicou Santosh Janardhan, VP de Engenharia e Infraestrutura do Facebook, em nova postagem no blog da empresa.

O problema era simples, mas a solução era complicada. “A causa subjacente desta interrupção também impactou muitas das ferramentas e sistemas internos que usamos em nossas operações diárias, complicando nossas tentativas de diagnosticar e resolver o problema rapidamente”, disse Janardhan. “Enquanto nossos engenheiros trabalhavam para descobrir o que estava acontecendo e por quê, eles enfrentaram dois grandes obstáculos: primeiro, não foi possível acessar nossos data centers por nossos meios normais porque suas redes estavam desligadas e, segundo, a perda total do DNS quebrou muitas das ferramentas internas que normalmente usamos para investigar e resolver interrupções como esta”, completou.

A Cloudflare também publicou uma postagem detalhada no blog sobre o que aconteceu, do ponto de vista externo, mostrando uma explosão rápida de atualizações do BGP pouco antes do início da interrupção. “Com essas retiradas”, escreveram Tom Strickx e Celso Martinho da Cloudflare, “o Facebook e seus sites efetivamente se desconectaram da Internet”.

Depois que a conectividade de rede de backbone foi restaurada em todas as regiões do data center do Facebook, tudo voltou com ela. Mas o problema não acabou – reativar os serviços de uma só vez poderia causar uma nova rodada de acidentes devido a um aumento repentino no tráfego. Além disso, “os data centers individuais relatavam quedas no uso de energia na faixa de dezenas de megawatts e, repentinamente, reverter essa queda no consumo de energia poderia colocar em risco tudo, desde sistemas elétricos a caches”, comentou Janardhan .  

 “Felizmente, este é um evento para o qual estamos bem preparados graças aos exercícios de “tempestade” que temos executado há muito tempo. Em um exercício de tempestade, simulamos uma grande falha do sistema colocando um serviço, data center ou região inteira offline, testando toda a infraestrutura e software envolvidos. A experiência com esses exercícios nos deu a confiança e a experiência para colocar as coisas novamente online e gerenciar cuidadosamente as cargas crescentes. No final, nossos serviços voltaram a funcionar com relativa rapidez, sem mais falhas em todo o sistema”, escreveu.

A internet, é claro, amou a coisa toda. Houve muitas piadas sobre o MySpace. Mas houve também quem tenha visto no ocorrido uma oportunidade de aprender e melhorar. Por exemplo, que tal promover uma ampla revisão para entender como tornar seus sistemas mais resilientes?

Muitas pessoas também usaram a indisponibilidade como uma chance de apelar para uma internet descentralizada (e em alguns casos, tentar vender pessoas em seu aplicativo social baseado em blockchain.) “Parabéns ao @ facebook por nos dar uma demonstração muito real de por que a mudança para uma Web 3 descentralizada é necessária e, de fato, inevitável “, tuitou o fundador do Polkadot e co-criador da Ethereum, Gavin Wood.