7/4(月) 11:11配信 ITmedia NEWS
2022年7月2日より長時間、大規模な通信障害を起こしたKDDI。翌7月3日には説明会を開催し、一連の障害について謝罪している
7月2日に発生し、現在も完全復旧には至っていないKDDIの大規模通信障害だが、多方面に影響を与えたことでも大きな注目を集めている。その原因は音声通話処理に関する部分で「輻輳」(ふくそう)が発生したためだというが、そもそも輻輳とはどのようなもので、なぜそれが通信障害を起こすほど甚大な影響を与えてしまうのだろうか。
【画像】KDDIの障害原因資料
甚大な影響を与えたKDDIの通信障害、その原因は
大規模通信障害は「au」「UQ mobile」「povo」など、KDDIが提供するモバイル通信の利用者のほぼ全てに影響しただけでなく、KDDIのモバイル回線を利用している楽天モバイルやMVNO、さらにはKDDI回線を利用する多くの企業のサービスにも影響を与えることとなった。
実際この通信障害により、KDDI回線を利用していた銀行の店舗外ATMが使えなくなったり、宅配便サービスの配送情報が更新されなくなったり、気象観測点の一部データが収集できなくなったり……と、非常に多岐にわたるサービスで問題が発生した。それゆえ障害発生の翌日となる7月3日には金子恭之総務大臣が会見で「大変遺憾」と述べた他、KDDIも会見を開いて代表取締役社長の高橋誠氏らが謝罪。日曜日であったにもかかわらず、事態は非常に大きく動いた。
KDDIの説明会では、通信障害が発生した経緯について説明している。その時点では障害発生の最中であったことから正確な原因はまだ追及できていないというが、障害発生の契機となったのはコアネットワークのルーターを交換した際に、なぜか音声通話が一部不通となったことにあるようだ。
そこでKDDIでは急きょ、ルーターを元のものに戻して対処を図ったというが、その間に4Gのネットワークで音声通話をする「VoLTE」をつかさどる「VoLTE交換機」の部分でアクセス集中が発生。輻輳状態に陥り、それがネットワークの他の部分にも影響して大規模通信障害に至ったという。
実はこの「輻輳」というのは、一般にはなじみはないものの、通信業界では障害発生時に必ずと言っていいほど出てくる言葉でもある。一体輻輳とはどのようなもので、なぜネットワークに問題を起こすのかを改めて確認してみよう。
「輻輳」はなぜ起きてしまうのか
輻輳とはさまざまなものが1か所に集まってくることを示す言葉であり、通信業界においては音声通話やデータ通信のトラフィックが特定の箇所に集中する状態を指す。通信のネットワークは道路、そこを流れるデータは車に例えられることが多いのだが、輻輳は道路の特定の場所に車が集中し、渋滞が発生している状態と考えれば分かりやすいだろう。
それゆえ輻輳が起こす問題も、道路で起きる問題と共通している。渋滞で混雑すれば車の流れが悪くなり、走行する車の速度が落ちたり止まったりしてしまうが、通信でも同様に、輻輳が起きることで通信速度が遅くなったり、通信ができなくなったりする訳だ。
そしてネットワークのある部分で通信ができなくなってしまうと、他の部分にある機器からの要求にも応えられなくなるため、輻輳の連鎖が起きてしまうことも多い。今回のKDDIの障害でもVoLTE交換機で発生した輻輳が、スマートフォンなどの端末の位置を登録するモバイル通信の要となる「加入者データベース」からの応答に応えられなくなり、その結果加入者データベースにも輻輳が発生して障害の規模が大きくなってしまったのだ。
この輻輳はさまざまなタイミングで起きることがあり、代表的な事例は大規模災害の発生時である。災害発生時は多くの人が被災地に連絡を取ろうとするため、特定の地域に音声通話が集中して輻輳状態に陥り、電話がつながりにくい状態となってしまう。
また大規模なイベントなどで特定の場所に多くの人が集まった時も、そこにいる人たちが一斉にスマートフォンを使って通信をするため輻輳が発生しやすい。ただ輻輳が発生してしまうと、110番、119番といった緊急時の重要な通信もできなくなってしまう可能性が高まるため、携帯電話会社は輻輳の発生に向けさまざまな対処を実施している。
前者の例でいうならば、爆発的なトラフィックが発生した時は音声通話の発信を規制して輻輳の発生を防ぐことが多く、その際は発信時に電話が込み合っている旨のアナウンスが流れる。また緊急通報などの重要な通話はネットワークに専用の領域を用意し、輻輳の影響を受けないようにするなどの対処を実施している。
また後者の事例であればイベントの開催が事前に分かっていることから、あらかじめ移動基地局車などを現地に派遣。現地のトラフィックを分散して輻輳の発生を防ぐことが多いようだ。
輻輳からの完全復旧の難しさ
だが携帯電話会社の大規模通信障害を振り返ると、一般的な輻輳とは異なる想定外の形で輻輳が発生し、それが障害へとつながることが多いようだ。今回のKDDIの場合も、通信障害が発生したのは深夜の1時で音声通話をする人は少ないはずなのだが、それにもかかわらず音声通話に関する部分で輻輳が起きることに疑問を抱いた人もいることだろう。
KDDIの説明によるとその理由はモバイル通信の仕組みにあるようで、実はVoLTEの仕組み上、端末側から50分に1度、加入者データベースに位置情報を登録するため、ネットワークにアクセスする必要があるのだという。それゆえ音声通話が不通になった15分という短い時間のうちに多くの端末から定期的なアクセスが多数発生したことで、輻輳が起きてしまったようだ。
また2021年10月に発生したNTTドコモの通信障害でも、やはり通常とは異なる形で輻輳が発生し、それが大規模障害へとつながっている。その発端はIoT向け通信サービスの設備を入れ替える際に不具合が発生したことで、元の設備に戻す際に加入者データベースにIoT端末の位置情報を登録し直したものの、その数がおよそ20万にも上ったため加入者データベースが輻輳、それがネットワーク全体の輻輳へと及んで障害を起こすに至っている。
こうした事例を見れば、ユーザーのアクセス集中によって起きる輻輳に対処するだけでは通信障害を回避できないことが分かるだろう。輻輳はさまざまな形で発生するもので、一度発生した輻輳に対処するにはトラフィックを減らすまで長い時間を要することから、その対処も容易ではない。
また輻輳からの復旧は一斉に進むのではなく、順々に処理をして進められることから、優先順位が決められていない限りどういった順番で復旧が進み、どの程度のスパンで全てのユーザーが復旧するのかを見通すのは難しい部分もある。今回のKDDIの事例では西日本が11時、東日本が17時30分とタイムラグがあったが、これはちょうど台風が近づいている沖縄や奄美大島などを優先するよう、総務省からの要請がありそれら地域を含む西日本を優先した結果のようだ。
加えて障害への対処が終わり、輻輳から完全に復旧させる上でも難しい対応が求められる。もし輻輳から完全に回復していない状況で制限を解き、回復したことを通知してしまうと、回復を待ちわびたユーザーが通常以上に一斉にアクセスしてしまい、別の形で輻輳を招いてしまうからだ。
実際NTTドコモの障害の事例においても、位置情報登録の処理がある程度進んだことから制限を解除し、一部回復した旨のアナウンスをしたところ、ネットワークの負荷がまだ完全に回復した訳ではないにもかかわらずユーザーからのアクセスが殺到したことで再び負荷が急増、輻輳が長引いて批判を集める結果にもつながっている。
一方で今回のKDDIの事例では、NTTドコモの障害の反省を受けてか情報発信には慎重な対応を敷いたようだが、障害が長引いたことや台風の接近などもあってか、それが総務省、ひいては官邸の不満を招いたようで、総務省から速やかな周知広報が求められるとともに、KDDIに職員が派遣されるなど異例の対応がなされるに至っている。ただ障害発生中で原因が判明していない中にあって、陣頭指揮を取るべき社長が記者説明会を実施することには疑問もあり、輻輳状態にある時の情報発信の在り方にも難しい判断が求められるようだ。
輻輳で障害を起こさないためにはネットワークの仕組みを理解して適切な処置をしていく必要があり、復旧に向けても慎重な対応が求められるのだが、ネットワークの複雑化が進み、影響範囲が広まる中にあってその難易度が上がっているのも確かだろう。今回のKDDIの場合も、同社で事前のシミュレーションにより問題が起きないことを確認した上で対処を進めていたというが、それでも輻輳が発生してしまったという。
しかも今後4Gから5Gへと主力のネットワークが変化し、自動運転車やスマートシティーなどの広まりでその利用用途も拡大する一方で、技術的には複雑な要素も増えていくと考えられる。いかに輻輳を発生させない、あるいは輻輳を大規模障害に結び付けない策をいかに講じられるかは、携帯各社にとって非常に悩ましい課題になってくるといえそうだ。
ITmedia NEWS