Encourage Super Station (ESS)

システムの監視から問題の追跡、復旧に至るまでの
コラボレーションを支援し、インシデントライフサイクルを管理

システム監視の現状:必要性の高まりと課題

近年、企業におけるITシステムの活用度が高まるにつれ、ITシステムの障害が事業継続に大きな影響を与える状況になってきています。これに伴い、システムの異常をいち早く察知し、問題を解決することで、システムの安定稼働を維持する重要性が高まっています。

一方、システムのオープン化を契機に、様々なプラットフォーム上の多様なアーキテクチャーを採用した多くのシステムが混在する状況になるとともに、運用管理業務の一部のアウトソース化、クラウドサービスの利用など、システムを取り巻く環境は、ますます複雑になっています。そのような中、システム環境やプラットフォームを問わず、統合的にシステム監視を行う仕組みが求められています 。

システム運用管理のポイント

Encourage Super Station (ESS)は、監視から問題の追跡、復旧までの一連の管理業務を効率化することで、サービスレベルの向上とコスト削減を両立させるためのさまざまな機能が盛り込まれています。 監視業務では、おおよそ以下のようなステップが考えられます。

監視と問題検知
業務システムやネットワークに対して問題がないか監視を行います。
影響範囲と原因分析
問題を検知すると、業務システムとして、どのような影響範囲が想定されるか、または実際に影響を受けているか特定し、利用者に問題発生を連絡します。また、問題が発生している監視対象とそれに関連するリソースにアクセスして状況を把握し、発生したメカニズムと原因を探り出します。
復旧作業と記録
原因を特定し、原因を取り除くための復旧措置を検討して、最適な措置と手順を適用します。また、この間、問題発生から復旧までの対処を監査証跡として記録するとともに、今後の際策を検討します。

これらの一連の作業は、ITIL (IT Infrastructure Library) では「インシデント管理」に相当します。 この一連の作業は、システム運用管理の担当者のみならず、システムを企画・設計・開発した人たち、システムに関係するハードウェア、ソフトウェアパッケージを提供したベンダー、さらにはシステムの利用者など、システムに関わるすべて人たちの共同作業で成り立つものです。システム運用管理は「共同作業=コラボレーション」がもっとも重要なのです。 システム構築における企画部門、開発部門、SI企業、各ベンダーと本番システムを維持運営管理する運用部門、ヘルプデスク部門間において、情報の共有ならびに相互連携を実現させ、ビジネススピードを促進します。

エージェントレスで異種混在環境の統合監視を実現

ESSは、エージェントレス型の監視を実現するESS リモートコレクタを配置するため、監視対象システムに対してエージェントを常駐させる必要がありません。エージェントレスであれば、導入時の検証作業が軽減されるだけでなく、エージェントのインストールに伴うシステムの再起動やバージョンアップに要する作業など、既存のシステムに対して与える影響を最小限に抑えることができます。こうしたメリットから、対象数の多いシステム程、ESSの導入によって大きなコスト削減効果が期待できます。

イベント収集機能

Encourage Super Station (ESS)は、様々な管理ツールにて検知したイベントを収集することができます。ESSが提供する管理ツール用コレクタを管理ツールにインストールすることで、管理ツールのイベントをESSイベントとして収集します。この収集により、ジョブ管理で検知されたジョブ実行時間の異常と、パフォーマンス管理で検知されたパフォーマンスの低下をESSで結びつけることが可能となります。

アプリケーションやOSが出力するログやsyslog、SNMPトラップをESSイベントとして収集します。ログを検査するモジュールはESSから提供されますが、大きなシステムリソースを必要とせず、今まで監視が必要とされながら実現できていない対象に監視領域を拡げることを可能とします。

全てのイベント、各種管理ツールとアプリケーションやOSのログ、は、それぞれが全く違うフォーマットになっています。このため、それらをESSイベントにするために、ESS用にイベントを標準化しています。同時にオリジナルのイベントもESSイベント内に残すことで、運用管理者の利便性を高めています。このイベントの標準化により、今後、優れた管理ツールの導入においても容易に統合監視を実現することが可能となります。

監視対象にエージェントのような実行モジュールをインストールすることなく、基本的な項目の情報を収集します。監視対象側に、何もインストールしたくない、または、何もインストールできない環境に対して、監視環境を提供します。

収集されたイベントは、サイト運用に合わせてメッセージの内容などを変換することができます。英語のメッセージを日本語に変換したり、その順番を変更することができます。同時に、各イベントにセビリティを設定することができます。これは、同じイベントが発生した場合でも、その発生した機器により重要度が変わることがあるため、重要な機器にはより高いセビリティを設定することができます。

ESS統合監視対象ツール

・BMC PATROL
・CA UnicenterTNG
・HP OpenView
・IBM Tivoli NetView
・日立 JP1
・その他SNMP管理ツール など

ESSリモートコレクタ

監視適用が可能な対象OS・データベース

Windows Linux UNIX
  • Windows NT4 Server/WS
  • Windows 2000 Server
  • Windows XP
  • Windows Server 2003
  • RedHat Linux
  • Turbo Linux
  • 各種 Linux ※
  • AIX
  • HP-UX
  • Solaris
  • Free BSD
  • 各種 BSD系 UNIX ※
  • 各種 SVR4系 UNIX ※
データベース
ORACLE

※監視対象の詳細についてはお問い合せください。

システム監視項目

種別 UNIX/Linux Windows
ステータス監視 直接PING(該当ノードの死活監視) 直接PING(該当ノードの死活監視)
TCPポート(該当ノードのポート監視) TCPポート(該当ノードのポート監視)
CPUパフォーマンス(使用率) CPUパフォーマンス(使用率)
CPU待ちプロセス数 イベントログ監視(情報)
CPU負荷平均(ロードアベレージ) イベントログ監視(警告)
間接PING(監視ノード起点)応答 イベントログ監視(エラー)
コアファイルの存在 イベントログ監視(成功の監査)
スワップ領域使用状況 イベントログ監視(失敗の監査)
ディスク入出力 仮想メモリ使用率
メモリ使用率 プリンタ状態
ログインユーザ  
ネームサービス(FQDN)  
アプリケーション監視 テキストログファイル テキストログの監視(T2E使用)
システムログファイル プロセス監視
プロセス動作 サービス監視
リソース監視 ファイルシステム(iノード使用率) ローカルファイルシステムの使用率
ローカルファイルシステムの使用率
ローカルファイルシステムの残容量
ファイル&アクセス監視 ディレクトリ・ファイル(作成/変更/削除)  
デバイスファイル(作成/変更/削除)
ファイル作成・改ざん
パスワード・シャドウファイル他の更新
NIC監視 ネットワーク(NIC)エラー
ネットワーク(NIC)コリジョン
ネットワーク機器監視(共通)
PING監視(該当ノードの死活)
PING監視(複数応答AND監視)
PING監視(複数応答AND・レスポンス時間)
PING監視(複数応答OR監視)
PING監視(複数応答OR・レスポンス時間)
TCPポート監視(該当ノードのポート)

ORACLE監視項目

種別 監視内容
マウント状態 インスタンスのマウント状態を監視
アーカイブプロセス利用状況の監視
インスタンスアクティブステータスの監視
REDOログ情報 REDOログ&ログファイルステータスを監視
REDOログバッファ REDOログバッファへの書込み待機の監視
REDOログバッファの再割当て率の監視
テーブルスペース Tablespaceの容量、使用率の監視
Tablespaceの断片化数&サイズの監視
キャッシュ バッファキャッシュのヒット率の監視
ライブラリキャッシュのヒット率の監視
ディクショナリキャッシュのヒット率の監視
メモリ プール領域と使用状況を監視
メモリソートとディスクソートの比率の監視
セッション毎のメモリ使用量の監視
セッション セッション(All、Active、Inactive)件数・待機監視
トランザクション トランザクション数・処理時間の監視
SQL Parse件数・CPU処理時間の監視
競合状況 REDOラッチ/LRUラッチの監視
フリーリスト競合回数の比率の監視
ロールバックセグメントの監視
 

イベント表示機能

イベント表示画面イメージ

収集されたイベントはコンソールに表示されます。発生したイベントはESSの設定により6種類のセビリティ(重要度)が追加され、セビリティに応じた表示色で表現されます。各種管理ツールで検出したイベントは、管理ツール側の重要度を尊重し、そのままスルーで表示します。(変更することも可能です)

コンソールには基本的に4つの表示領域、監視対象機器を表示するNavi Tree、論理的なシステム構成図を作成できるMap View、検知したイベントをリスト表示するEvent View、管理者が解決すべき問題を表示するIncident List、があります。

Navi Treeには、イベントが発生した機器とその要素(エレメント)が自動的に追加され、監視対象の増加の度に管理者が操作する必要はありません。また、手動で追加・削除も可能ですので、対象追加・削減時の対応も可能です。

Map Viewに配置された監視対象機器とエレメントは発生したイベントのセビリティに連動した色で表示されます。この画面はシステム構成に応じて、Navi Treeからドラッグアンドドロップでサイト運用ルールに合わせて作画することができますので、運用技術者がどのサービスで何が発生しているか直感的に判断できるようにすることが可能です。

Event Viewには検出されたイベントがリスト表示されます。ボタン操作により特定セビリティの表示・非表示が可能です。また、項目名とその値によりフィルタリングすることも可能です。

Incident Listは、一定レベル以上のイベントが発生したとき、自動的に生成され、管理者が解決すべき問題として表示されます。事前に監視オブジェクト(監視対象ノードや監視項目)間を、依存と影響関係に関連づけておくことで、関連性のあるイベントをひとつのインシデントとして管理し、対応を進めることで合理的に効率を向上させます。

イベント管理機能

検知されたイベントは、運用技術者によってそのステータスが変更されます。イベントはコンソールに表示される前からいつどこで発生したか時刻が記録されており、運用技術者によるステータス変更時にも時刻が記録されます。このことにより、特定のイベントの発生から対応完了までを時系列でトラックする事が可能となっています。
時刻は、SLAを実現する上で非常に重要な項目となっており、ESSでは中核を成すソフトウェアのシステム時刻を基準とします。

また、特定のイベントに対しての対応履歴を記録していくことができます。これらの情報はESSを利用する全てのユーザで共有することができますので、管理者間のコラボレーションを促進することができます。

  • 時刻を記録した様子
    時刻を記録した様子
  • 対処内容を記録した様子
    対処内容を記録した様子
  • 運用管理ツールの情報も保持
    運用管理ツールの情報も保持
 

トラブルの影響範囲と原因分析機能

影響範囲表示イメージ
影響範囲表示イメージ

コンポーネントに対して隣り合わせる「依存」と「影響」に基づいて原因可能性範囲と影響範囲を推論するエンジンを搭載しました。依存情報に基づいて、その 影響方向と原因可能性方向に向かってオブジェクトを検索し、範囲をグラフィカルに表示します。この機能により、トラブル発生から、影響範囲や原因の特定に 至るまでの時間を短縮することができます。

 

インシデント管理機能

影響範囲と原因分析機能により、影響範囲と原因可能性範囲が明確になります。このとき、影響範囲と原因可能性範囲に属するオブジェクトに着信したイベントはすべて同一インシデントに属すものとして、新たにインシデントを生成することなく処理されます。

管理者は従来のイベント単位ではなく、インシデント単位で問題に取り組むことにより、管理者の取り組むべき問題がより明確になります。障害イベントは事象を検出する度に発生しますが、実際には1つの問題原因に対して障害イベントが 多数発生することになります。問題解決のための取り組むべき単位は、イベント単位ではなく、イベントの集合体としてのインシデント(1つの原因を修正することにより解決できる単位)で扱われるべきです。ESSでは、管理者が取り組むべき問題をインシデントという単位で扱う機能を搭載することで、問題解決までの時間短縮を支援します。

遠隔操作機能

遠隔操作画面のイメージ
遠隔操作画面のイメージ

インターネット経由のシステム管理など、ファイアウォールに守られたネットワークに対して、セキュリティを保ちながら遠隔操作を可能にする、「リモートオペレータ」を搭載しました。特に広域システム管理や、MSPなどの遠隔保守を必要とするケースに、ネットワークの設定や構成を変えることなく、遠隔操作を実現します。

システム管理者向け、システム開発者向けのSSL-VPNとも言うべき機能により、管理者や開発者は遠隔地から情報漏洩の心配なく対処が必要なシステムにアクセスすることができます。

電話回線やISDNなどのリモートアクセスでは、別途RASの管理や電話番号のコストが発生していました。ESSではインターネットに接続できる(インターネットからの接続は不必要)だけで、セキュアなリモートアクセス環境を構築することができます。
従来のSSL-VPNでは、HTTP用のポートのみオープンされており、システム管理者には不十分でした。ESSでは通常のtelnetで使用する23番ポートに加えて、VNCもサポートしています。

VT100相当の画面に表示されたテキストは、全てキャプチャされていますので、トラブル対応の報告書を素早く作成することが可能となります。

また、リモートアクセスのインターフェイスを提供するESSコンソールは、指紋認証システム(特徴点データをESSマネージャに暗号化保存)と連携することができ、リモートアクセス作業者の本人性を担保することが可能となっています。

計画停止時の監視抑止機能

メンテナンススケジュール登録イメージ
メンテナンススケジュール登録イメージ

1千台を越えるような大規模サイトを一手に監視する業務では、あちこちでシステムが日常的に計画停止を繰り返され、人間の判断によって計画停止か、トラブルかを切り分けているケースが散見されます。
これは、規模の拡大に伴い、人為トラブルを誘発する恐れがあります。ESSでは監視対象に対して計画停止スケジュールを登録する機能を搭載しました。これにより人為トラブルを最小限にしつつ、日々の運用を効率化します。

企業内システムの現況を即座に把握可能

Encourage Super Station (ESS)は、様々な運用管理ツールからイベント情報を収集する、またはESS独自の標準プロトコルを用いた監視方法を実施することで、企業内で発生しているシステムの例外事象やトラブル、パフォーマンスの悪化を即座に検知し、通知することができます。
このことにより、システム運用管理の責任者は、現在の状況をその場で理解することが可能となり、今、必要とされるアクションをすぐに実行に移すことが可能となります。

例外事象の原因特定を支援

現在のシステムは単独で完結することは少なく、ほとんどのサーバーが他のサーバーに依存して動作しています。このことは、複数のサーバー間で「依存」と「影響」の関係にある、と言い換えることができ、あるサーバーのダウンは広範囲な業務システムの停滞に直結することを意味します。
ESSは、運用のノウハウにより蓄積された知識、またはシステム開発時の仕様から、システムの依存と影響の関係を設定することができます。この時、イベントが発生すると、ESSは自動的に影響範囲と原因可能性範囲を表示し、管理者が原因を特定することを支援します。

管理者が取り組むべき問題を明確化

ある例外事象(トラブル)によりもたらされるイベントは、非常に大量になることがあります。大量の(現象)イベントの発生により、最も懸念されることは、他の重要なイベントが大量のイベントに埋もれてしまって見逃されてしまいがちである、ということです。
ESSは、重要なイベントにはその上位に「インシデント」という概念を導入し、ある依存関係の中に含まれるイベントは全て特定のインシデントに自動的に関連づけられます。このことにより、複数の重要なイベントが全く別のシステムから発生した場合、個別のインシデントが作成され、管理者はインシデントベースで問題の解決に注力することが可能となります。

セキュアで確実なリモートアクセス手順を利用

ファイアウォールで守られたサーバーにリモートからアクセスすることは容易ではありません。特にインターネット経由では、ファイアウォールの設定変更が必要となる上、不特定な場所からのアクセスは、事実上、不可能と言われています。しかしながら、リモートアクセスの要望は高く、最終的に公衆回線などを経由して裏口を開けられているケースもあります。
ESSは、コールバックモデムの考え方をアプリケーションに導入し、セキュアなインターネットを使用したリモートアクセス手順を提供しています。このことにより、ファイアウォールの穴開けやネットワーク構成の変更、プロキシーサーバーの利用ポリシーなど変えることなく、インターネット上のどこからでも必要な遠隔操作が可能となります。

計画停止時の作業負荷を抑制

1,000台を超えるサーバー数を管理するサイトでは、日常的にメンテナンスが発生しています。メンテナンス時も、運用管理ツールはクリティカルなアラートを大量に送り続けており、管理担当者の大きな負担となっています。この状態を回避するためには、メンテナンス時には管理ツールを動作させないコンフィグレーションに変更しなければなりませんが、人的な判断や操作が発生するため、トラブルをメンテナンス中と思い込み、異常イベントに過剰に反応するケースもあります。どのケースも人海戦術で解決できますが、非効率である印象は拭えません。

ESSは、サイト(お客様)、ノード(サーバー)、エレメント(監視項目)の単位で、一定時間の監視を抑制することができます。サイト管理者またはサーバー管理者が計画停止時間を設定することにより、その時間帯のイベントは「受信するが通知しない」モードになります。時間帯が過ぎれば自動的に通常監視に戻りますので、設定の復旧作業やイベントの見逃しは発生することがなくなります。

システム構成

イメージ図

Encourage Super Station (ESS)は基本的に4層からなります。
運用管理ツールごとに用意されたコレクタは、ツールが検知したイベントをコントローラに転送します。また、能動的にサーバーの情報を取得するリモートコレクタは、エージェントレスでサーバーのリソース情報を取得し、イベントをコントローラに転送します。
コントローラで、イベントは共通のフォーマットに標準化され、英語などは機械的に日本語に置換されます。イベントは処理が終わるとマネージャに転送されます。
マネージャで一元的に集約されたイベントは、各コンソールに送信されます。
コンソールでは、イベントの表示とともにその操作やリモートコレクタの閾値設定などをすることができます。

コンソールでは様々なサイトからイベントが集約されていることが確認でき、必要に応じて、Flex Frameworkを使用したリモートアクセス方法により、監視対象に接続することができます。

それぞれのコンポーネントは、接続時に相互に認証しSSLセッションを確立します。この接続は、コールバックモデムをアプリケーション的に再現した弊社独自のPeerAdapter技術(特許出願中)が使用されており、なりすましや盗聴などのセキュリティリスクを最小限に抑えます。また、マネージャはコンソールやコントローラからの送信データを監視しており、コントローラからコントローラへデータや操作の要求が送られることはありません。

コンソールとマネージャ

イメージ図

コンソールは起動されるとマネージャへの接続をユーザに求めます。ユーザは、マネージャのIPアドレスや名前を指定し、コンソールをマネージャに接続します。矢印で示された方向で接続するので、ほとんどの場合、間にあるファイアウォールのセキュリティ強度を低下させる必要はありません。また、コンソールとマネージャ間の接続は、SSL 1024ビットで暗号化され、Proxyをサポートしています。

ESS管理者は、ユーザ毎に操作権限と操作コントローラを設定することができ、特定のユーザは特定のコントローラのみ参照・操作の許可を与えることができます。

マネージャとコントローラ

イメージ図

コントローラは起動すると指定されたマネージャに接続します。矢印で示された方向で接続するので、ほとんどの場合、間にあるファイアウォールのセキュリティ強度を低下させる必要はありません。また、コントローラとマネージャ間の通信内容はSSL 1024ビットで暗号化されています。

コントローラとコレクタ

イメージ図

コレクタは指定されたコントローラにイベントを送信します。矢印で示された方向で接続するので、ほとんどの場合、間にあるファイアウォールのセキュリティ強度を低下させる必要はありません。また、コレクタとコントローラ間の通信内容はSSL 1024ビット、またはBlowfishで暗号化されています。

コントローラと管理ツール用コレクタ

イメージ図

管理ツール用コレクタは、既存のサードパーティ製管理ツールなどのイベントを検出し、コントローラに送信します。イベント検出には、管理ツールのAPIや、自動アクション機能などを利用しています。

コントローラとリモートコレクタ

イメージ図

リモートコレクタは、監視・管理用のエージェントをインストールできない・しpたくない機器に対して、リモートからアクセスし、機器の基本的な情報を監視します。情報の検出には、標準的なプロトコルを使用しますので、監視対象には何もインストールせずに監視することが可能となります。

コンソールとリモートオペレータ

リモートオペレータは、ESS Flex Framework を使用し、セキュアなリモートアクセスを実現します。ESSコンソールからメニューを選択すると、vt100相当の画面が起動され、指定したサーバーと接続することが可能となります。このリモートアクセスを使用すると、対象のサーバーに「いつ」「誰が」接続し、「いつ」切断し、「どのような」コマンドを実行したか、が記録されます。
また、VNCプラグインを導入することで、Windowsで稼働しているVNCサーバーと接続することも可能となり、遠隔地からWindowsサーバーを操作することも可能です。
リモートオペレータを起動するコンソールでは、その起動時に指紋認証システムと連携することで、操作者の本人性を担保することができます。

監視対象システム

OS Microsoft Windows XP
Microsoft Windows Vista
Microsoft Windows 7
Microsoft Windows Server 2000
Microsoft Windows Server 2003 / 2003 R2
Microsoft Windows Server 2008 / 2008 R2
IBM AIX
HP-UX
Solaris
各種Linux
Free BSD
データベース Oracle Database
統合監視
ツール
BMC PATROL
HP Network Node Manager
IBM Tivoli NetView
日立 JP1
Zabbix
その他 SNMP管理ツール
 

稼働環境

ESS Manager Red Hat Enterprise Linux 3/ 4/ 5/ 6
ESS Console Microsoft Windows XP
Microsoft Windows Vista
Microsoft Windows 7
Microsoft Windows Server 2003 / 2003 R2
Microsoft Windows Server 2008 / 2008 R2
ESS Controller
ESS Collector
Red Hat Enterprise Linux 3/ 4/ 5/ 6
Microsoft Windows XP
Microsoft Windows Vista
Microsoft Windows 7
Microsoft Windows Server 2003 / 2003 R2
Microsoft Windows Server 2008 / 2008 R2
ESS Collector 監視対象ツールの動作環境に依存します。
詳しくは弊社までお問い合わせ下さい。
  • 本ソフトウェアは改良のため事前に告知することなくバージョンアップすることがあります。
  • 本ソフトウェアに使用されている各種技術は特許出願中です。
  • OSとPostgreSQLのバージョンの組み合わせの制約があります。
  • ハードウェア要件に関してはご利用環境によって異なります。
  • 詳細は弊社までお問い合わせ下さい。
  • 対応するOSおよび各製品のバージョンなど詳細は弊社までお問い合わせ下さい。
  • 旧バージョンの動作環境については、弊社までお問い合わせください。
  • 記載されている他の会社名・製品名・サービス名は、各社の商標または登録商標です。
お問い合わせ
24時間受付中

エンカレッジ・テクノロジ株式会社

〒103-0007 東京都中央区日本橋浜町3-3-2トルナーレ日本橋浜町7F

TEL:03-5623-2622 平日9時~17時