Tech

Facebook explică închiderea neexplicată din spatele întreruperii sale globale de luni

Facebook explică închiderea neexplicată din spatele întreruperii sale globale de luni octombrie 6, 2021
facebook-backbone

Întreruperea masivă care a dus la decăderea Facebook, a serviciilor asociate (Instagram, WhatsApp, Oculus, Messenger), a platformei sale pentru companii și a rețelei interne a companiei a început cu o întreținere de rutină.

Potrivit vicepreședintelui de infrastructură Santosh Janardhan, o comandă emisă în timpul întreținerii a provocat, din greșeală, oprirea “coloanei vertebrale” care conectează toate centrele de date Facebook, peste tot în lume.

Acest lucru în sine este suficient de rău, dar așa cum am explicat deja, motivul pentru care nu ai putut folosi Facebook este că informațiile de rutare DNS și BGP care indică serverele sale au dispărut brusc. Potrivit lui Janardhan, această problemă era o problemă secundară, deoarece serverele DNS ale Facebook au observat pierderea conexiunii “coloanei vertebrale” și au încetat să facă publicitate informațiilor de rutare BGP care ajută fiecare computer de pe internet să își găsească serverele. Serverele DNS funcționau încă, dar nu erau accesibile.

Lipsa conexiunilor de rețea și pierderea DNS au întrerupt serverele de la inginerii care încercau să rezolve problema și au dezactivat multe dintre instrumentele pe care le folosesc în mod normal pentru reparații și comunicare – la fel cum am auzit ieri.

LEGATE DE

Ce este BGP și ce rol a jucat în întreruperea masivă a Facebook?
Postarea de pe blog notează că inginerii au avut obstacole suplimentare datorită securității fizice și a sistemului din jurul acestui hardware crucial. Odată ce au „activat protocoalele de acces securizat” (se pare că acesta nu este un cuvânt de cod pentru „tăiați ușa serverului cu un polizor unghiular), au reușit să obțină puterea online și să restabilească încet serviciile în sarcini crescând treptat. Aceasta face parte din motivul pentru care unii oameni au luat mai mult timp pentru a obține accesul înapoi ieri, deoarece cerințele de putere și calcul de a porni totul simultan ar fi putut provoca mai multe blocări.

Deci asta este. Fără teorii ale conspirației și fără tehnicieni care să ia axele pentru a asigura facilități pentru a reporni bebelușul lui Mark Zuckerberg. Doar o eroare la o comandă pe care un instrument de audit a ratat-o ​​și timp de șase ore, serviciile care conectează miliarde de persoane au dispărut.