システム運用・保守における障害とは? 監視強化と障害通知の活用方法(1/2)

運用管理

システム運用・保守における障害とは? 監視強化と障害通知の活用方法

システム運用・保守を行う現場は、システムが24時間365日問題なく稼働しているかを監視しています。
多岐に渡る日々の運用・保守作業の中でも、特に緊張感と迅速な対応を求められるのが障害対応です。
システム障害によりサービスが停止すれば、そのシステムを利用しているクライアント企業や顧客が困るだけでなく、ビジネス上の機会損失や企業の信頼を失うリスクをも抱えています。 
障害の程度や内容によっては社会的な問題に発展してしまうことさえ考えられます。

この様なリスクを回避するために、システム障害を早い段階で発見し、適切な対応するために必要なツールを探している現場も多く見受けられます。解決手段のひとつにシステム監視ツールが挙げられます。
監視ツールと言っても、機能や設定方法は様々で、使い勝手や導入のしやすさが判断できずに、困っている現場も見受けられます。困っている現場の解決策として、SHERPA-IRがお役に立つかもしれません。
この記事では、システム運用・保守における障害について説明しつつ、弊社のSHERPA-IRと連携させるとどんな風に現場が変わるのか紹介します。

システムやサーバーに起こる障害とは

システム運用・保守の現場で発生する障害の原因は多岐に渡ります。
障害原因を正確に把握して対応することは、システム担当者にとって最優先事項です。では、具体的にどのような障害があるでしょうか。即座に担当者が原因特定することは難しいところがありますが、代表的な障害の原因について知っておくことは重要です。

まず考えられるのは、外部から攻撃されることです。サイバー攻撃と呼ばれるものが該当します。
システムはたいていの場合インターネット回線を通じて外部と繋がっています。そのため、外部からの影響をすべて遮断することはできません。
代表的な攻撃方法は、大量のトラフィックを発生させ、障害につなげるDDoS/DoS攻撃です。DDoS攻撃のトラフィックで混乱しているところに、さらに別の攻撃を仕掛けるような事例も確認されています。
特に、個人情報を扱っている企業や政府機関・団体などを中心に日々どこかで発生しており、決して他人事ではありません。

続いて考えられるのは、ハードウエアの故障です。
前述の通り、システムは24時間365日休みなく稼働しているため、ハードウエアの消耗により壊れることがあります。
定期的な点検の中で、消耗している部品などの交換をしていても地震などの災害の影響や停電といった突発的な事態が引き金となって、システムに思わぬダメージを及ぼすことも想定されます。

次に考えられるものとして、システムソフトウエア系の不具合です。
これは、システムソフトウエアを更新した際の設定ミスをはじめ、何らかのバグなどが原因となる場合があります。
他にも、利用量やデータ量急増による、システムへの想定を超えた高負荷が掛かったり、システム内に潜入したコンピュータウイルスによる想定しない挙動など色々な理由で障害が起こることがあります。

この様に、障害発生が起こる理由は、主に外部からの要因と、ハードウエアの損傷(故障など)、システムそのものの負荷や設定ミスになります。
単一の要因で発生することもあれば、複合的な要因が重なって発生することもあり、障害発生の理由はその都度違います。
どちらにしても、人がシステムを開発して設定している限り、100%障害を防ぐことはできません。
出来うる限りのシステム障害を想定しても、予想を超える事態が発生することは避けられません。
そのため、システム障害が起こることを前提としたシステム運用・保守の準備が非常に重要となってきます。

サーバー障害が発生した場合の対応方法

では、サーバー障害が発生した場合、どのような対応方法が考えられるでしょうか。
この障害はシステムに対してどのような影響があるのか、また、システムが停止することによる影響範囲を考慮しながら、障害が起こった原因を特定し、システムのダウンタイムを最短で復旧をしなければなりません。

障害が起こった場合、障害内容により対処方法は様々ですが、どのような場合にも、最短で障害原因を把握し、最適な手順をもってミスなく対応することが求められます。
これらを確実に実行する為には、既知の障害に対する対応手順の準備や、未知の障害に対するワークアラウンド対応を確実に熟せる体制づくりが必要です。
限られた人員で対処できることには限界が生じるため、システム監視ツールなどのシステムを適宜導入していく必要性があります。

システム監視ツールを利用するメリット

システム監視ツールを利用するメリットとして、限られた人員の有効活用と目の届きにくい部分を漏れなく監視できることが挙げられます。

システム運用・保守における障害とは? 監視強化と障害通知の活用方法の記事には続きがあります

SHERPA SUITE
監修 SHERPA SUITE運営事務局 オープンソース(OSS)を活用した運用管理ソリューションであるSHERPA SUITE(シェルパスイート)の運営事務局です。SHERPA SUITEは、SHERPA-IR(イベント制御)・SHERPA-SM(インシデント管理)・SHERPA-JB(ジョブ)ソリューション群の総称となり、システム運用におけるコスト削減及びサービス品質を向上します。SHERPA SUITEについてはこちら。

運用管理ソリューションソフトウェア

詳細の説明、見積もり依頼など
まずはお気軽にお問い合わせください。