現象
NTTやKDDI系で通信トラブル ネット証券もログイン不調 170825日経12
原因判明
通信業者で交換する経路情報に米グーグルが誤った情報を大量に登録 : IP情報を確認する機器に負荷が過大にかかり処理遅延あるいはフリーズの原因となった。
IT_Pro 170825IT_Pro01
時事 170826時事01
インシデント発生時の対応としての 「現象確認」 「原因判明」(「一時対応」:報知と機器のリセット)まで終わったので あとは 「対策」(再発防止策)および「横展開」(同様の事象でトラブルとなるものはないか、トラブル発生前に根本対応策をとる)が、必要だろう。
1.「再発防止策」:(1)大量の経路情報を発出する前にその中身を確認する仕組み あるいは大量には発出しないような仕組みの検討と、
(2)受け側も一度に受けた情報そのままで更新作業をするのではなく時間(せいぜい数秒)間隔で一定量のみ処理をする
ような仕組みをシステム内に組み込むかの検討が必要ではないか。
2.「横展開」:「横展開」すべきシステムは多数あるように思うので過去のインシデント情報を分析し、今後大きなトラブルを発生しそうな事象を
ピックアップし、緊急度の高いものから同様の対策を検討する必要がありそう。