羅渣士斷網26小時報告歸咎人為錯誤
管理及系統「缺陷」令情況更糟
【明報專訊】一份為加拿大廣播及電訊管理委員會(CRTC)所做的獨立審查報告指出,2022年造成1,200萬加拿大人沒有無線服務的羅渣士(Rogers)斷網事件,係由人為失誤引起,但因管理層和系統「缺陷」而導致情況更糟。
報告也表示,羅渣士在斷網事件後所採取的措施「在改進羅渣士網絡彈性和可靠性上令人滿意,同時也解決了2022年7月斷網事件的根本原因」。
羅渣士斷網事件發生在2022年7月8日凌晨,持續26小時,令大量個人和企業無法使用其移動裝置、家庭電話、網絡服務和911緊急呼叫服務。
CRTC在2023年9月委託工程顧問公司Xona Partners對此一斷網事件進行審查並找出斷網原因,它也將查看自事件以來羅渣士所採取的措施是否足以防止另一起事故發生。Xona本月公布了報告摘要,但CRTC表示,整份報告含有敏感資訊,稍後會以刪節的方式公布。
報告摘要指出,在斷網前數周,羅渣士正在進行總計7階段網絡升級的步驟,斷網事件發生在第6個階段。報告表示:「2022年7月的斷網是由於配置羅渣士IP 網絡內的分發路由器時發生錯誤。」
報告表示,羅渣士的工作人員造成網絡中斷,因為他們移除將資訊定向到適當目的地的控制過濾器。沒有此一過瀘器,大量資訊被送至羅渣士的核心網絡,造成超載並在過瀘器被移除後數分鐘內即使整個系統當機。
報告稱,羅渣士的核心網絡管理公司內部及外部客戶和供應商的無線和固線數據,「由於無線和有線網絡共享一個公共IP核心網絡,中斷的範圍非常大,導致所有服務遭受災難性損失。」
羅渣士此後已宣布將為其無線系統開發一個新的獨立網絡,同時在舊的核心網絡上保留固線服務。
報告表示,由於升級的前5個階段都進行順利,「風險評估演算法降低了第6階段的風險等級」。這意味著執行升級工作的羅渣士員工不必進行額外的檢查和核准手續,即使這樣做「並不合乎業界常規」。羅渣士表示,自此該公司安裝了一個新的風險評估演算法,以解決此一問題。
Xona的摘要報告也表示,如果羅渣士有「超載防護機制」,限制流入核心網絡的資訊流量,「斷網事件可以避免」。報告建議所有加拿大電訊公司為其核心網絡實施超載保護機制。
羅渣士在斷網事件後的恢復行動受挫,其中一個核心問題是該公司未能適當溝通。報告稱,當核心網絡當機時,遠距員工無法使用羅渣士系統或網絡,也無法使用其他電訊公司的網絡上網,「羅渣士不得不派遣工作人員親往遠端站點以實體方式修復受影響的路由器,這延遲了網絡復原工作。」此後,羅渣士的所有事件回應和危機團隊成員都獲得了備份的第三方網路存取權限,以「在斷網期間保持通訊能力」。