アラートメールの効率化、重複処理・繰延処理とは?(2/2)

運用管理

アラートメールの効率化、重複処理・繰延処理とは?

大量のアラートを防止するために、本当に必要なことだけを通知するように条件設定をすることが重要になります。
しかし、「どの条件を整理していいのかわからない。もし重要なものまで見落としたらどうしよう」と思ってしまうのが担当者の心理です。

条件を設定するときに、一致ルールでまず項目同士を比べたうえで既にアラートとして通知されたメールと類似性がないか確認し、重複していれば除外するようにできればいいのです。また、一定の条件に当てはまるものだけをチケット登録してアラート通知するような条件設定にできれば整理することも可能になります。

先にも述べましたが、重複したアラートを集約出来るSHERPA-IRのフィルター機能があります。大量のアラート内容を解析して、現場の様々な判断ルールを元に重複していれば自動的に集約するため、担当者に通知される障害通知は障害対応しなければならないものだけに絞り込むことが出来ます。

SHERPA-IRのフィルター機能について

SHERPA-IRのフィルター機能には、大きな2つの機能があります。
1つ目は、人手に頼っていたアラート内容を確認し、各種条件を確認し処理の有無の判定、障害対応に必要な情報追加、後続の処理の指示を自動で行います。
2つ目は、取り込んだアラートはルールに従い内容解析し該当する集約ルールにより重複するアラート通知を集約します。

フィルター機能1「重複処理」
SHERPA-IRの重複処理は、システム障害が発生した時、指定された一定時間内、システム監視ツールからの同一内容のアラートを集約します。
フィルター機能2「繰延処理」
SHERPA-IRの繰延処理は、基本的には重複処理と同じで、指定された一定時間内のシステム監視ツールからの同一内容のアラートを集約しますが、指定された一定時間の間、同一内容のアラート通知があった場合、指定時間をリセットして更に指定時間を延長し処理が継続されます。
重複処理と繰延処理の違い
重複処理は指定時間を超えても同一内容のアラートが通知されると、新たに新規処理として実行します。 一方、繰延処理では、指定時間に同一内容のアラートが来ると処理時間がリセットされ、集約処理が継続されます。
使い分けの例として、同一アラートの見落としを避けたい運用を行なう場合は、定期的に通知される重複処理を使い、既に障害対応しており、同一の通知を受けたくない場合には繰延処理を使うというように、現場の運用に合せて使い分けることが出来ます。

SHERPA-IRについて

SHERPA-IRは、アラートメールの制御をはじめ、様々なシステム運用監視ツールやログシステムなどの異なるフォーマットを変換しメールを取込み、システム運用ルールに基づき、内容を判定し必要な処理を実行後、障害チケットを作成するためにインシデント管理ツールや、既知の処理を自動実行させるためにジョブ管理システムなどと連携することが可能です。

また、障害と判定した場合、アラートの電文内容から障害チケットに記述すべき項目を自動で抽出しますが、アラートの電文には記載されてない、障害対応に必要な担当者情報や障害内容に該当する手順書情報等を付加することも出来るので、担当者は手順書を探す手間が省けます。

SHERPA-IR導入に関して

新たにシステム運用環境を導入するときに直面するのは、既存運用システム環境を停止して導入しないといけないということがよくありますが、24/7で稼働しているシステム運用環境において、大きな障壁となります。

SHERPA-IRの導入は既運用システムと並行して配置し、アラートメールの向け先をSHERPA-IR向けを追加していただくだけで、既存システムを停止したり大きく変更する必要がありません。

アラートの流れをSHERPA-IRを通過する流れを追加し、順を追ってアラートの判別や集約するルールを追加することで、オペレータ作業が削減されていきます。

また、今まで感覚的だった障害毎の処理件数も、障害毎にSHERPA-IRどのルールで処理されたのか可視化され、継続的な改善計画を支援します。

SHERPA SUITE導入のメリット

SHERPA SUITEは多様なシステム運用環境に柔軟に導入することが出来、システム運用に携わる各部門(オペレータ、障害担当者、システム運用管理者)が行うそれぞれの業務に対して、メリットを提供することが出来ます。

オペレータのアラート内容確認から、同一アラート集約や、障害担当者の手順書確認作業から、既知の障害対応作業の自動処理による効率化によって、重大なシステム障害が起こったときに迅速で確実な対応や復旧ができるようにしてクライアント・顧客の損失を最小限にとどめます。

また、システム運用管理者は、SHERPA-IRの蓄積された障害処理データを解析することで、改善すべき障害に対する具体的なルールが、どの程度の効果を生み出すか、予測を立て運用改善に取り組むことが出来ます。
今迄、分散していた運用ノウハウをSHERPA-IRのルールに組み込み、ノウハウのサイロ化を崩すことで、限られた人員と予算でシステム運用・保守を効率的に行うことが出来る柔軟なシステム運用基盤を構築できる要因と自負しております。

アラートメールの効率化、重複処理・繰延処理とは?の記事を読みなおす

SHERPA SUITE
監修 SHERPA SUITE運営事務局 オープンソース(OSS)を活用した運用管理ソリューションであるSHERPA SUITE(シェルパスイート)の運営事務局です。SHERPA SUITEは、SHERPA-IR(イベント制御)・SHERPA-SM(インシデント管理)・SHERPA-JB(ジョブ)ソリューション群の総称となり、システム運用におけるコスト削減及びサービス品質を向上します。SHERPA SUITEについてはこちら。

運用管理ソリューションソフトウェア

詳細の説明、見積もり依頼など
まずはお気軽にお問い合わせください。