KDDIクラウドプラットフォームサービス ナレッジサイト

本サイトはKDDIクラウドプラットフォームサービスVer.2のサイトです。
KDDIクラウドプラットフォームサービスVer.1をご利用のお客さまは一部異なる仕様があります。独自の仕様等については、こちらをご参照ください。ご利用のバージョン確認方法はこちらをご参照ください。

  • HOME
  • よくあるご質問
  • 2023年1月28日に発生したKCPS障害について

2023年1月28日に発生したKCPS障害について

2023年1月28日(土)午前4時20分より長時間にわたり、KDDIクラウドプラットフォームサービス(以下、KCPS)をご利用のお客さまに、多大なご不便とご迷惑をお掛けしましたことを、深くお詫び申し上げます。
社会インフラを支え安定したサービスを提供しなければならない通信事業者として、今回このような事象を発生させたことを重く受け止めております。
再発防止策の徹底を図り、サービスの安定的な運用に向けて全力をあげて取り組んでまいります。

概要

今回の障害では、KCPSをご利用いただいているお客さまだけでなく、物流、自動車、行政サービスなど広く産業界に波及、生活インフラに影響を及ぼしました。

影響時間 2023年1月28日(土) 04時20分 ~ 2023年2月8日(水)09時43分
影響エリア KCPS Ver2 jp2-east05ゾーン

原因

ハードウェアメモリが故障したことで、ストレージ内に不整合なメタデータ ※1 が生成されました。
この不整合なメタデータにより、データ処理が正常に完了せずCPU高負荷状態となり、故障ストレージでアクセス遅延からアクセス不可に遷移し、お客さま影響が発生いたしました。
ストレージは2筐体・制御部のストレージコントローラ(SC)4台でクラスタを構成しておりましたが、4台中3台のSC停止により冗長構成が保てなくなったため、クラスタが停止いたしました。
※1 ストレージ上のデータ保存位置情報

対処

以下の復旧対処を実施いたしました。
今回の障害はグローバル含めて過去事例がなく、調査および復旧手順の確立に時間を要しております。また、お客さまデータの保全を最優先とした対処策として、新規構築したストレージへのデータコピー(移行)を実施したため、復旧までに時間を要しております。

  1. 新規ストレージの構築

    2023年1月30日(月) 12時51分完了

  2. データコピーの準備作業(故障ストレージのリードオンリー状態での立ち上げ)

    2023年2月3日(金) 19時00分完了 (当初見込み:2023年2月7日完了予定)

  3. 構築した新規ストレージへのデータコピー

    2023年2月7日(火) 15時04分完了 (当初見込み:2023年2月9日完了予定)

  4. 新規ストレージ上での仮想サーバーの立ち上げ(仮想サーバー接続不可の復旧)

    2023年2月8日(水) 09時43分 設備対処完了

ご参考:お客さまで取得しているバックアップからの復旧対処

上述のとおり復旧までに時間がかかる状況であったため、バックアップを取得しているお客さまへは、バックアップからの復旧対処をしていただくようにご案内しております。
お客さまデータのバックアップやセキュリティ確保などは、お客さまのサポート範囲となりますので、バックアップのご提案等が必要な場合は、KDDI 法人営業担当者へご相談ください。

再発防止

  1. メモリロット不良の予防交換(2023年2月18日 交換済)

    故障したメモリをメーカーで調査した結果、メーカーが管理する非公表のロット不良に該当したことが判明いたしました。
    今回データ移行をおこなった新ストレージには、当該メモリが使用されていないことを確認し、ロット不良に該当しているメモリは、すべて交換いたしました。
    交換後、メモリエラーは発生してないことを確認しております。

  2. メモリエラー監視の自動化(2023年3月10日 実施済)

    暫定策として2023年2月14日から実施したメモリエラー確認(1回/1日手動実施)が効果的 ※2 であると判断したため、自動化によるメモリエラー確認を本対策として実施いたしました。
    ※2 別ストレージにおいて、交換基準に達するメモリエラーを2023年2月18日に確認し、お客さまサービスに影響なく、メモリ交換を実施しております。

  3. 障害長期化防止

    • 同一障害再発時の復旧手順を整備することで、同一障害が再発した際の対応の効率化を実施いたしました。(2023年3月17日実施済)
    • 定期的な復旧訓練を実施することで、障害復旧にあたるエンジニアの熟練度や前述対策の有効性の向上を実施して参ります。(2023年5月26日 実施済)
    • 本障害以外にも、過去に発生した障害における復旧手順について、必要なツールや手順・所要時間情報などをまとめておくことで、包括的に障害が発生した際の対応を効率化いたします。(2023年7月対応完了予定)

お客さまへの約款返金

該当のお客さまへ以下の返金を実施しております。

  1. 返金概要

    以下①②について、ご請求額から減算しております。

    ①SLA返金

    KCPS仮想サーバーの月間稼働率が99.99%未満のとき、該当月のご利用料金の10%に相当する金額を返金

    ②24時間以上サービス停止した場合の返金

    KCPS仮想サーバーが全く利用できない状態が24時間を超える場合、利用できなかった日数分(24時間毎)のご利用料金を返金

  2. KCPS約款

    https://www.kddi.com/extlib/files/corporate/kddi/kokai/keiyaku_yakkan/pdf/kcps.pdf

    • SLA返金については「サービス品質(稼働率)に係る料金の適用」17項を参照。
    • 24時間以上サービス停止した場合の返金については「定額利用料の支払義務」第24条を参照。

 

お客さまには、ご迷惑をお掛けしましたことを、改めまして深くお詫び申し上げます。
再発防止を徹底するとともに、お客さまに安心してご利用いただけるサービスを提供してまいります。


2024/09/15 2024/09/15