8 lipca o godz. 2:27 w nocy inżynierowie kanadyjskiego operatora Rogers Communications rozpoczęli szósty etap procesu modernizacji rdzenia infrastruktury teleinformatycznej obsługującej sieci komunikacji bezprzewodowej i szerokopasmowej dla ponad 10 milionów abonentów. Po 4:43 rano zauważono coraz większe zakłócenia ruchu w sieci oraz niezwyczajne przeciążenia ruterów. Abonentów zaskoczyły głuche telefony komórkowe i przewodowe oraz brak dostępu do internetu i telewizji, jak też niedziałające karty debetowe. Nic, co korzystało z sieci Rogersa, nie działało poprawnie. Szczególnie niepokojący był brak możliwości skorzystania z numeru awaryjnego 911, służącego do wzywania karetek, straży pożarnej, policji…

Dostępu do internetu i kontaktu z firmą zostali pozbawieni również pracujący zdalnie inżynierowie operatora. Rozpoczęli więc przełączanie się na sieci innych operatorów, co było częścią planu awaryjnego z 2015 roku, kiedy to specjaliści Rogersa dostali zapasowe karty SIM oraz konta internetowe do zewnętrznych usługodawców. Jednak przypomnienie sobie haseł oraz konieczność przejścia dwustopniowej autoryzacji, w tym poprzez (właśnie upadłą!) sieć Rogersa było trudne. Pozostało im jak najprędzej udać się fizycznie do centrum firmy. W końcu udało się o katastrofie powiadomić też CTO firmy, który bawił akurat w Portugalii i rozpoczął gorączkowe starania o powrót do Toronto. Uzasadnione stało się pytanie, dlaczego przy tak poważnej operacji serwisowej nie było go na miejscu? No cóż, odpowiedź nie była dla niego korzystna i zarząd Rogersa szybko wymienił go na kogoś innego.

Początkowo przyjmowano, że przyczyną problemów jest jakiś cyberatak, o czym zawiadomiono też konkurencyjnych operatorów. Ci jednak stwierdzili, że z ich punktu widzenia to sieć Rogersa ma poważne kłopoty z obsługą protokołu BGP, między innymi wycofuje prefiksy adresowe, zanika ruch wychodzący, a wchodzący – tylko czasem przyjmowany – znika w zapętleniach. Okazało się, że to w trasowaniu w sieci Rogersa tkwi przyczyna tej awarii. Obaj konkurencyjni operatorzy zaoferowali przejęcie obsługi abonentów Rogersa przez własne sieci, ale technicznie okazało się to niemożliwe, gdyż scentralizowana baza danych użytkowników była z powodu tej awarii niedostępna.

Oczywiście rozpoczęto poszukiwanie pierwotnej przyczyny awarii. O 3:20 w nocy Rogers „ćwierkał” na Twitterze (ciekawe, jak pozbawieni sieci abonenci mogli to przeczytać…), że ich zespół techniczny intensywnie pracuje nad przywróceniem serwisów sieci – a to znaczy, że jeszcze nic konkretnego nie wiedzieli. Dwie godziny później zakomunikowali, że dalej próbują rozwiązać problem oraz obiecali abonentom rabaty na usługi. Swoją drogą potem okazało się, że będzie to firmę Rogers kosztować w IV kwartale 150 milionów dolarów kanadyjskich.

O 9:52 wieczorem poinformowano, że Rogers rozpoczyna przywracanie usług telefonii komórkowej. Widać inżynierowie znaleźli już przyczynę w skrypcie wprowadzonym do ruterów. Operator wykorzystuje rutery od różnych dostawców i w przypadku jednego z typów wprowadzony skrypt spowodował usunięcie filtrów trasowania zapobiegających zatłoczeniu ruterów, co spowodowało ich „zatkanie” i „zablokowanie” sieci. O 7:01 rano w sobotę 9 lipca usługi sieci były już dostępne dla większości jej użytkowników, ale sieć odzyskała pełnię funkcjonalności dopiero pod koniec weekendu.

Zaraz po tym dyrektor generalny Rogersa zapowiedział i wycenił rozdzielenie sieci na sieć obsługi komunikacji bezprzewodowych oraz sieć komunikacji przewodowych na 250 milionów dolarów kanadyjskich, a także, dla poprawienia niezawodności, zapowiedział inwestycje rzędu 10 miliardów w ciągu 3 lat – na testowanie i nadzór, oczywiście z wykorzystaniem sztucznej inteligencji. Ta deklaracja skierowana do klientów Rogersa była też istotna dla uspokojenia regulatora oraz agencji rządowych, którzy zażądali śledztwa w sprawie awarii. Rogers planuje wkrótce przejąć innego, mniejszego operatora, a po takiej awarii może obawiać się o brak zgody.