カスタマイズ試験例

1.カスタマイズ試験例

 実際に運用している例について説明します。

 ITサービスを提供していると、どうしても原因が分らない事象に遭遇します。

<サーバ機器であれば>
(1)なぜか、プロセスが止まってしまう。
(2)突然リブートする事象が発生し、次回、いつリブートが起きるか分らず、対応に苦慮する。
(3)ゾンビプロセスが発生し、CPUの負荷が異常に高くなることが発生する。
のような現象です。

 原因が不明のままでも、サービスの停止は許されませんので、上記のような現象の発生が分れば、
(1)プロセスの再起動
(2)リブートが発生した場合、リブート後に必要な処理の実行
(3)ゾンビプロセスの強制終了
で、暫定対処が可能です。

 カスタマイズ試験は、お客さま環境に応じて試験を行い、原因が分らない不具合の事象の発見を行い、暫定対処が必要なことをお客さまにお知らせします。

カスタマイズ試験は、サービス停止期間を短くするばかりでなく、オペレータの精神的負担の低減、作業の効率化に繋がります。


2.今回のシステム構成

 今回は、「あるサーバが、1カ月ぐらいするとなぜかリブートになる事象が続いた」ことをトリガに構築しました。

 リブート後には、業務で必要なプログラムを起動する必要があります。リブート後に自動でプログラムを起動させることもできますが、他システムとの整合性のため、チェックが必要なため、リブートがあった事実を保守者に知らせる仕組みを検討しました。

 リブートの情報以外にも、ITサービスの安定した運用に必要な情報を入手する仕組みを追加しました。

画像の説明


3.カスタマイズ試験の3要素の具体例

カスタマイズ試験の構成3要素
(1)試験実行プログラム
 ⇒ 統計情報の作成
(2)表示のためのプログラム
(3)トラッププログラム
になります。

各項目について、今回の例を説明します。

(1)試験実行プログラム
30分毎に、各サーバにログインし、次の項目を調べ、ファイルに蓄積します。
ア)今フォーカスしている業務のプロセス一覧
イ)サーバの連続起動時間
ウ)サーバの負荷(1分、5分、15分)

試験実行プログラムは、単に試験を行い、結果をファイルに蓄積していくシンプルな動作です。
この情報が、統計情報となります。


<統計情報の例>

画像の説明

↑図をクリックすると拡大図になります。



(2)表示のためのプログラム
 次に示す例は、実際の表示例です。
 1番左が、試験時刻、2番目が該当プロセス一覧、3番目が起動時間、4番目が負荷になります。


<実際の表示例>
画像の説明


(3)トラッププログラム
 試験実行プログラムによって作成した、統計情報で各機器のサーバの不具合を発見するために、トラッププログラムを実行します。

今回のトラップ条件を次に示します。
 trap_0 : 1 時間以内に最終logの書き込みが無い場合
 trap_1 : 起動プロセスに差がある場合
 trap_2 : UPtime が減少している場合
 trap_3 : load 15分が、2.0 以上の場合

上記のトラップ条件に合致した場合は、アラートメールを保守者に送信します。

トラッププログラムの起動・停止画面を次に示します。
 トラップ条件は、画面上から変更できるため、閾値を変更し、シビアな環境の試験も可能となります。
 


<トラッププログラムの起動・停止画面例>
画像の説明


4.まとめ

 カスタマイズ試験の実際の例を紹介しました。
今回の事例は、サーバへのカスタマイズ試験でしたが、NW機器、NW機器とサーバの両方の状態の試験、等々、多くの機器の確認業務として利用できます。
ITインフラは、お客さま毎に微妙に環境が違うため、一律的な試験では満足できないことがあります。

今回紹介したカスタマイズ試験は、
(1)試験実行プログラム
 ⇒ 統計情報の作成
(2)表示のためのプログラム
(3)トラッププログラム
の3つの要素の非常にシンプルな構成です。

日々、変更となる管理対象に対して、柔軟に対応でき、情報システム部門の方の無駄な稼働を減らすことが可能です。

トータル監視の5番目の要素の「カスタマイズ試験」により、ITインフラサービスの安定運用、想定外のトラブルの減少に貢献することが可能です。

 トータル監視のページへ

 ITサービスレコーダーのページへ

 保守サービス特徴のページへ

 ネットワークの遅延のページへ

 アプリケーションの遅延ページへ

 お問合せのページへ

a:615 t:1 y:0

最新の更新 RSS  Valid XHTML 1.0 Transitional