FacebookTwitterLinkedIn

Facebook, Instagram und Co. offline! Wie sie aus dem Internet verschwanden

https://network-king.net/wp-content/uploads/2021/10/facebook802-769x414.jpg

Am 04. Oktober um 15:51 Uhr UTC begannen die digitalen Medien zu überkochen: Facebook und die mit ihm verbundenen Dienste WhatsApp und Instagram waren allesamt nicht erreichbar. Ihre DNS-Namen ließen sich nicht mehr auflösen und ihre Infrastruktur-IPs konnten nicht mehr erreicht werden. Es war, als hätte jemand die „Stecker“ all ihrer Datenzentren auf einmal gezogen und sie vom Internet abgekoppelt.

Am Ende des Tages gab Facebook einige Details zu den internen Vorgängen bekannt. Jüngst gab das Unternehmen weitere Erklärungen ab.

Während routinemäßiger Wartungsarbeiten gab offenbar jemand einen Befehl ein, anhand dessen die Verfügbarkeit der globalen Backbone-Kapazitäten überprüft werden sollte. Dabei kam es unbeabsichtigt zu einer Unterbrechung aller Backbone-Verbindungen, wodurch die Datenzentren von Facebook auf der ganzen Welt abgeschaltet wurden.

„Unsere Systeme sind so konzipiert, dass sie solche Befehle überprüfen, um Fehler wie diesen zu verhindern. Doch ein Fehler im Überprüfungstool verhinderte, dass der Befehl gestoppt wurde”, erklärte Santosh Janardhan, Facebooks VP of Engineering and Infrastructure, in einem neuen Beitrag auf dem Blog des Unternehmens.

Das Problem war einfach, aber die Lösung war kompliziert. „Die Ursache dieses Ausfalls betraf auch viele der internen Tools und Systeme, die wir in unserem täglichen Betrieb verwenden. Das erschwerte unsere Versuche, das Problem schnell zu diagnostizieren und zu lösen“, so Janardhan. „Während unsere Ingenieure daran arbeiteten, herauszufinden, was passiert war und warum, sahen sie sich zwei großen Hindernissen gegenüber: Erstens konnte auf unsere Rechenzentren nicht auf normalem Wege zugegriffen werden, weil ihre Netzwerke ausgefallen waren. Zweitens zerstörte der Totalausfall von DNS viele der internen Tools, die wir normalerweise zur Untersuchung und Lösung von Ausfällen wie diesem verwenden”, fügte der VP hinzu.

Cloudflare veröffentlichte ebenfalls einen detaillierten Blog-Beitrag über die Geschehnisse aus einer externen Perspektive, der einen schnellen Ausbruch von BGP-Updates kurz vor Beginn des Ausfalls zeigt. „Durch diese Ausfälle“, schrieben Tom Strickx und Celso Martinho von Cloudflare, „waren Facebook und seine Seiten effektiv vom Internet abgeschnitten.“

Nachdem die Backbone-Netzwerkkonnektivität in allen Regionen des Facebook-Rechenzentrums wiederhergestellt war, gingen auch die Dienste wieder online. Doch das Problem war noch nicht ausgestanden – die Reaktivierung von mehreren Diensten auf einmal könnte aufgrund eines plötzlichen Anstiegs des Datenverkehrs eine weitere Runde von Abstürzen verursachen. Darüber hinaus meldeten einzelne Rechenzentren einen Rückgang des Stromverbrauchs im zweistelligen Megawattbereich. „Eine plötzliche Umkehr des Stromverbrauchs könnte alles gefährden, von elektrischen Systemen bis zu Caches”, so Janardhan.

„Glücklicherweise sind wir dank der ,Sturm‘-Übungen, die wir schon seit langem durchführen, gut auf dieses Ereignis vorbereitet. Bei einer Sturmübung simulieren wir einen größeren Systemausfall, indem wir einen ganzen Dienst, ein Rechenzentrum oder eine Region offline nehmen und die gesamte Infrastruktur und Software testen. Die Erfahrungen mit diesen Übungen haben uns das Vertrauen und die Erfahrung gegeben, die Dinge wieder in Gang zu bringen und die erhöhte Datenlast sorgfältig zu verwalten. Am Ende waren unsere Dienste relativ schnell wieder einsatzbereit, ohne dass es zu weiteren systemweiten Ausfällen kam“, schreibt er.

Die Internetgemeinschaft war natürlich begeistert von dem Vorfall. Es wurde eine Menge Witze über MySpace gemacht. Aber es gab auch diejenigen, die den Vorfall als eine Gelegenheit sahen, daraus zu lernen und sich zu verbessern. Wie wäre es beispielsweise mit einer umfassenden Überprüfung, um zu verstehen, wie man seine Systeme widerstandsfähiger machen kann?

Viele nutzten die Nichtverfügbarkeit der Facebook-Dienste auch als Chance, um ein dezentralisiertes Internet zu fordern (und in einigen Fällen zu versuchen, den Nutzern ihre Blockchain-basierte soziale App schmackhaft zu machen). „Glückwunsch an @Facebook für die sehr reale Demonstration, warum der Übergang zu einem dezentralisierten Web 3 notwendig und in der Tat unvermeidlich ist”, schrieb zum Beispiel Polkadot-Gründer und Ethereum-Mitbegründer Gavin Wood auf Twitter.

FacebookTwitterLinkedIn