つなぐことが私たちの使命 24時間365日、通信を守る取り組み

私たちKDDIは、お客さまを第一に全社一丸となり、通信障害を二度とおこすことがないよう、障害の防止に全力で取り組んでいます。
つなぐことが私たちの使命。

私たちの使命は、重要な社会基盤を支えることです。
通信の機能は、社会の様々なところに溶け込み、一人ひとりの生活に無くてはならないものになっています。
24時間365日、安心・安全で信頼される通信サービスを提供するための、私たちの取り組みをご紹介します。

通信設備のメンテナンス作業でのミスを無くすために

2022年7月2日に発生した通信障害は、誤った作業手順での通信設備の作業を行ったことに起因します。
KDDIでは、再発防止策のひとつとして、通信設備のメンテナンス作業に関する作業手順や基準を見直し、サービスの安定的な運用に向けて全力を上げて取り組んでいます。

1.作業事前準備における、正しい作業手順書の選択
通信設備に対する作業を実施する際に参照する作業手順書の管理を厳格化しています。
手順書の参照・保存場所・使用後の処理などの管理を厳格化することで、誤った手順書が作成、利用されないよう改善を実施しています。

2.作業実施前の事前チェック方法を見直し、誤った手順書での作業実施を防止
通信設備に対する作業において、当該設備の有識者が作業手順書を確認の上エビデンスを残し、作業承認者はそのエビデンスを確認し、作業承認を行う手順に改善しています。

3.サービス正常性確認方法の見直し
サービスの正常性を確認する方法を見直し、シンプルな結果表示・判断基準の定量化を行いました。作業実施時には、この改善内容の確認を実施しています。

4.切り戻し設定時間の基準見直し
2022年7月2日に発生した通信障害では、問題発生時の配下サービスでの輻輳も含めた考慮ができていませんでした。
この点を改善し、作業毎に切り戻し時間を事前評価し個別に設定するとともに、輻輳発生時に備え、複数の関係部門で作成した「輻輳時の復旧手順」を事前に準備して作業するように改善しています。

5.作業リスク評価および作業抑制の基準見直し
作業失敗時のお客さま影響規模の大きさに応じて、作業リスクの評価を見直し、より高いレベルの承認プロセスを通過するように改善を実施しています。
また、特定のイベントに対する作業抑制期間(作業を行わない期間)を従来より拡張し、イベント期間中に重大な事故が発生しないように改善を実施しています。

6.ヒヤリハット事例の活用強化
ヒューマンエラーでのサービス影響を回避するために、ヒヤリハットの収集および展開の強化に取り組んでいます。
さらに、ヒヤリハットの分析から、より的確な注意喚起や啓もう活動ができるように、ヒヤリハット分析システムを導入します。現在、令和5年4月の導入に向けて開発中です。

万が一の通信障害発生時にも、大規模化を防ぎ早期に復旧させるために

2022年7月2日に発生した通信障害をうけ再発防止策のひとつとして、障害発生時の早期復旧手順を確立し、サービスの安定的な運用に向けて全力を上げて取り組んでいます。

今回の事故においては、一部の通信設備が壊れたバックアップファイルを読み込み異常状態で起動したことにより携帯電話の位置を確認する信号が繰り返し送信され、さらに、加入者データベースにおいてセッション情報のデータ不一致が発生するなど、複数の異常状態が継続したために、復旧作業に長時間を要しました。

そのため再発防止の観点から、通信障害時の復旧手順の見直し、通信設備の輻輳解消ツール※の開発等により、複雑な状態を考慮した復旧手順の確立に取り組んでいます。

※輻輳とは。こちらをご確認ください。

① 輻輳発生時の復旧手順の見直し・通信設備の輻輳解消ツールの開発・導入
通信設備が輻輳状態であることに早く気づき、速やかに復旧させるための対処を実施しています。
(1)輻輳の早期検知を実現するために検知ツールを開発・導入しました。
(2)異常状態のバックアップファイルを読み込むことが無いように、通信設備のリセット手順を改修しました。
(3)輻輳の早期復旧を実現するためにワンタッチで複数の通信設備に対して同時に短時間で実行できるツールを開発・導入しました。

② 復旧対処の自動化を検討(令和5年度以降に段階的実装を検討中)
「革新的 AI ネットワーク統合基盤技術の研究開発(平成30年度-令和2年度)」の「AIによるネットワーク運用技術」において、学習データに基づいたAIによる障害検知・原因特定・復旧手順作成・復旧対処の研究開発を実施しています。
輻輳検知から対処の実行までを自動的に実行するようにシステム化を検討しており、令和5年度以降の段階的商用実装に向けて次世代アーキテクチャ5GC・OSS検証環境で検証中です。
※このプロジェクトの研究開発では、自動化レベル3に向けた90%超の正解率の原因特定手法や重大事故の短時間復旧に目途を立てます。
(併せて、既存設備と同等の高い品質が要求される最新の仮想化ネットワークにおける研究開発の成果を導出します)

障害発生時の対策を全社で訓練

2022年7月2日に発生した通信障害をうけ、再発防止策の一つとして、2022年9月23日、都内事業所や関東近郊を参集拠点とし、障害発生時や災害対応に関する全社参集訓練を実施しました。
これからも、サービスの安定的な運用に向けて全力を上げて取り組んでいきます。

当日は大規模障害を想定し、復旧シナリオ通りに進まない訓練を実施しました。またあわせて、衛星電話を非常時の通信手段として活用するため、訓練と合わせ、危機管理対策室と実際に通話する訓練を行いました。

この記事をシェアする

このページに興味・関心がもてましたか