KDDIクラウドプラットフォームサービス ナレッジサイト

本サイトはKDDIクラウドプラットフォームサービスVer.2のサイトです。
KDDIクラウドプラットフォームサービスVer.1をご利用のお客さまは一部異なる仕様があります。独自の仕様等については、こちらをご参照ください。ご利用のバージョン確認方法はこちらをご参照ください。

  • HOME
  • よくあるご質問
  • サービス仕様
  • 各種オプション
  • 監視オプション
  • Monitoring_Agent_downのアラーム連絡を受けた場合の対処法を教えてください

Monitoring_Agent_downのアラーム連絡を受けた場合の対処法を教えてください

【質問】


クラウド運用担当者から、監視オプションを契約している仮想サーバにて「Monitoring_Agent_downのアラームが発生した」との連絡を受けました。
詳細を教えてください。

 

【回答】


・Monitoring_Agent_downとは
監視サービスご提供のためにお客さま仮想サーバにて動作しているZabbix エージェントが、
弊社監視サーバからの死活確認に対し、15分以上応答して来なかった場合に警報として通知されるものです。
Zabbix エージェントはプロセスとして動作しているため、仮想サーバが一時的に高負荷になっている場合、
または仮想サーバがハングアップしている場合に検知することがございます。

基本監視サービスをお申し込みいただいた場合、弊社監視サーバからのICMP Pingの定期ポーリングと、
Zabbix エージェントの死活確認を複合してお客さま仮想サーバの死活判定を行なっております。
それぞれにメリットがございます。

・ICMPポーリング(Ping)
サーバダウン時にエージェントレス(プロセスが動作していなくても)でダウンを検知した可能。
ただしネットワーク到達性しか確認できないため、OSのフリーズやハングアップを判定できない場合がございます。

・Zabbix エージェント死活確認
サーバダウンには至っておらずネットワーク到達性はある(ICMPポーリングには応答を返している)が、
サーバがフリーズ、ハングアップなど、実質サーバがご利用頂けない状態に陥っていることを
検知することが可能です。

 
・発生時の影響
[仮想サーバとしての状況]
・仮想サーバ高負荷(CPUロードアベレージの逼迫・メモリーおよびキャッシュの枯渇・システムディスクの枯渇・
セッションの枯渇・フリーズ・ハングアップ)の発生が疑われます。
・何らかの原因でお客さま仮想サーバ内のZabbix エージェントが停止してしまった可能性がございます。
・Zabbix エージェントが疎通を行なうモニタリングセグメント(198~のアドレスが付与されているNIC)への
ルート情報が不正で、仮想サーバから監視サーバへ向けた通信が全く疎通できない、
もしくは疎通が不安定になっている場合が考えられます。
・監視サービスとしての状況
Monitoring_Agent_downが発生している最中は、ICMPポーリング以外のすべての監視がご提供できていません。
ただしログ監視のオプションをご利用の場合は、Monitoring_Agent_downが回復した後、リトライ処理が行われるため、ダウン中のALMなどは遡って検知します。
CPU、メモリーなどのリソース系の監視オプションをご利用の場合は、エージェント復旧時に閾値を超えていた際は検知可能です。

・発生時の対処法
※別途、構築オプションのご契約によりサーバ構築および運用をKDDIへ委託しており、Admin Consoleや仮想マシン内へのログイン方法が不明であるお客さまの場合は、クラウドプラットフォームサービスをお申し込みされた担当営業・SEへご連絡ください。担当営業・SEの連絡先が不明である場合は、クラウド運用担当窓口までご一報ください。

[仮想サーバにログインが可能である場合]
・ZABBIXエージェントサービス(Windows系OS)、zabbix_agentd(Linux系OS)が起動している事を確認してください。
これらが停止している場合は起動してください。
・モニタリングセグメントのNICが動作している事を確認してください。
・モニタリングセグメント向けのルート情報が正しい事を確認してください。
・上記までに問題がない場合は、仮想サーバのリソースに問題がないか確認し、問題がある場合は解決してください。
・仮想サーバのリソースに問題がない場合、ZABBIXエージェントサービス、zabbix_agentdの再起動をお試しください。

[仮想サーバにログインが不可である場合]
・Admin Consoleのコンソール接続より画面表示を確認してください。画面が表示されない、マウスやキーボードの操作を受け付けないなどの場合、OSのフリーズ・ハングアップが発生していると想定されます。お客さまにて状況をご確認の上、Admin Consoleから仮想サーバの停止・起動の実施をご検討ください。

上記の対処を行なった後、KDDIクラウド運用担当窓口まで、Monitoring_Agent_downの復旧状況をお問い合わせください。

●留意事項
本文書内のお客さま仮想サーバの停止・起動の実施を促す記述がございますが、
この操作により発生したOSやデータの破損について当社はいかなる責任を負う事もできません。
必ずお客さまにてサーバ状況をご確認のうえ、実施可否をご検討くださいますようお願い致します。
また万が一に備え、日ごろよりお客さまにて仮想サーバのバックアップを取得する事を、
併せてご検討くださいますようお願い致します。

●参考記事
構築・運用オプション

 

2024/03/28 2024/03/28