システム障害アラートの重複問題を解決するには?(1/2)

運用管理

システム障害アラートの重複問題を解決するには?

システム運用で悩ましいのがアラート管理ではないでしょうか。
アラートが増加し、内容を確認してみると重複したアラートが多く、確認する手間がかかるだけでなく、その後の復旧対応などに支障をきたすことも珍しくありません。
もし、こうしたアラートを正確に整理して通知されたら、どれだけ運用が楽になるでしょうか。
アラート管理を正確に行うことがシステム運用の効率化につながりひいては顧客企業からの信頼も増してきます。
今回は、現場が抱えているアラート管理に関する問題点と、その解決策についてお話していきたいと思います。

アラートが増える背景

どうしてアラートが増えてしまうのでしょうか。

本来、アラートは重要なシステムエラーを検知するために受信するものであったはずです。しかし現実には、システムエラーログが検知の対象となっていたり、アクセスログのすべてを監視しているケースが散見されます。これは、万が一システム異常を見逃してしまって重大な障害につながれば、大きな被害が出てしまうだけではありません。長期的なクライアントとの関係にも影響してしまうことを恐れて監視対象を必要以上に広げてしまい、エラーがふえることになるのです。

本来、そこまで監視する必要がないのに監視対象に加えてしまった結果どうなるでしょうか。

こうなると、重要ではないアラートも受信してしまうだけではありません。もし重要なアラートを早期検出しても、増えてしまったアラートの確認作業に追われてしまいます。結果的に、必要であるはずのシステム復旧作業が遅れて顧客に迷惑が掛かってしまうのです。

では、アラートを検知する条件を絞っておけば、アラートが減って解決するのでしょうか。

条件を絞れば、確かに受信するアラートは減らせるでしょう。しかし、条件を絞りすぎてしまうと、本来検知しなければならない重要なアラートの検知が漏れてしまいシステム障害を起こすリスクも高まります。このアラートを検知するための条件バランスを調整することは難しく、現場では、条件を絞り込むことによる漏れか、大量アラートからのインシデント選別の大変な作業をとるかの葛藤を抱えてしまうことになります。

アラート管理とは

システム管理者は、システムの異常を早急に把握して対応する必要があります。異常を知らせてくれるのがアラート管理です。システム管理者は、システムが出した以上を早急に確認したうえで復旧に向けた対応をおこなう必要があります。

しかし、人の管理だけでは異常をすぐに検知できないため、監視システムを導入することが有効な手段となるのです。

監視システムは、定期的に監視対象機器を漏れなく監視して、機器からの小さな不具合を受け取り、システムを監視、異常を察知したら「アラート」として発行します。システム管理者が、監視システムから「アラート」を受け取ると、アラートの内容に応じた復旧対応を行わなければいけません。システム管理者が異常を検知するために、監視システムのアラート機能がどれだけ重要であるかがわかります。スムーズなシステム障害対応を実行するにはアラート機能は必要不可欠なものとなります。

アラート受信時の問題点「大量アラート」

アラート受信時の問題点のひとつめに大量アラートがあります。
システム障害が起こると、監視システムはアラートを発行、システム管理者に通知します。
システムの単一障害であれば、発行されるアラートは多くないため、それほど大きな負担にはにはならないでしょう。

しかし、大規模なシステム障害が起こった場合には、一気に大量のアラートが発行されることも珍しくなく、更に、長時間システム障害が続き、すぐに復旧できないとなれば、同一障害からのアラートが何度も発行されることもあるのです。

通常、システム管理者はアラートを受け取り障害内容からシステム障害の切り分けをおこないますが、大量のアラートが届くとアラートの詳細把握ができるまでに時間を費やしてしてしまい、障害対応の開始が遅れてしまうことがあります

これは顧客企業の満足度低下につながり、長期的見ても大きな損失となりかねません。

アラート受信時の問題点「重複アラート」

もうひとつ、アラート受信時の問題点として挙げられるのが重複アラートです。
システム障害が発生している時間が長くなればなるほど、監視システムは同じアラートを何度も発行することになります。これが重複アラートの原因です。

ただでさえ、システム管理者は発生したシステム障害の対応に追われているのに、同じ内容の重複アラートが何度も届き量が増えてしまうと、煩雑な作業が増え復旧着手時間が遅延し、リスクを増大させてしまうことになりかねません。

同じ内容のアラートであれば、一度通知されれば良いのですが、実際には重複してアラートを受信しており、現場の効率を下げているのが現実なのです。
これでは、顧客企業の満足度も下がってしまいかねません。

大量チケットによるインシデント管理ツールへの影響

では、大量にチケットが発行されると具体的にインシデント管理にどのような影響が出るのでしょうか。
結果から言うと、大量にチケットが発行されると、インシデント管理ツールに大きな影響が発生してしまいます。
インシデント管理ツールでは、記録だけに使われているExcel管理と違い、障害通知や問い合わせの内容を自動的にシステム担当者に割り振るなど、問い合わせから対応までのリードタイムと、障害通知や問い合わせ内容の追跡など、多くの作業を効率的に管理しています。

システム障害アラートの重複問題を解決するには?の記事には続きがあります

SHERPA SUITE
監修 SHERPA SUITE運営事務局 オープンソース(OSS)を活用した運用管理ソリューションであるSHERPA SUITE(シェルパスイート)の運営事務局です。SHERPA SUITEは、SHERPA-IR(イベント制御)・SHERPA-SM(インシデント管理)・SHERPA-JB(ジョブ)ソリューション群の総称となり、システム運用におけるコスト削減及びサービス品質を向上します。SHERPA SUITEについてはこちら。

運用管理ソリューションソフトウェア

詳細の説明、見積もり依頼など
まずはお気軽にお問い合わせください。