一份令人警醒的網(wǎng)絡(luò)重大故障報告
數(shù)字證書過期了,為什么沒有及早發(fā)現(xiàn)?
軟銀解釋到,該分組交換設(shè)備的數(shù)字證書不同于其他網(wǎng)絡(luò)設(shè)備。
通常,對于其他網(wǎng)絡(luò)設(shè)備,我們在購買設(shè)備后,是可以自行確認(rèn)數(shù)字證書到期時間的。
但分組交換設(shè)備的數(shù)字證書是通過嵌入式軟件固化在相應(yīng)硬件里的,作為運營商,我們無法確認(rèn)到期時間。
解決措施
臨時解決措施
本次故障是由2018年4月升級的Ver.1.14版本引起,而之前的Ver.1.08版本沒有問題,因此,臨時解決措施是從Ver.1.14版本回滾到Ver.1.08版本,但這會導(dǎo)致一些4G物聯(lián)網(wǎng)功能無法使用。
中期解決措施
1. 全網(wǎng)普查所有設(shè)備的相關(guān)證書是否到期,包括全網(wǎng)基站設(shè)備。
2. 制定更加嚴(yán)格的新設(shè)備和新軟件版本入網(wǎng)測試規(guī)范。
3. 要求在設(shè)備升級后一年內(nèi),保留舊版本軟件,以在新版軟件出現(xiàn)類似問題后,快速回滾到舊版本。
永久性措施
1. 要求以后所有購買的網(wǎng)絡(luò)設(shè)備和軟件,運營商均可自行檢查數(shù)字證書是否到期。
2. 更改系統(tǒng)異常檢測和應(yīng)急機制,當(dāng)系統(tǒng)檢測到網(wǎng)絡(luò)異常時,不再只是重啟恢復(fù),而是設(shè)置異常告警級別,根據(jù)門限判定是重啟還是繼續(xù)運行。
3. 由于引起本次重大事故的原因之一是由于所有設(shè)備都來自同一家供應(yīng)商,因此,要求在2019年6月30日之前引入多家設(shè)備供應(yīng)商,以分散風(fēng)險。
看完軟銀的故障報告,感覺是字里行間透露出一萬個“萬萬沒想到”,盡管各種備份容災(zāi)都做到位了,但意外還是發(fā)生了。真是網(wǎng)絡(luò)安全無小事,運維責(zé)任重如山,令人警醒。(作者:網(wǎng)優(yōu)雇傭軍)

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞