イベント収集機能
Encourage Super Station(ESS)は、様々な管理ツールにて検知したイベントを収集することができます。ESSが提供する管理ツール用コレクタを管理ツールにインストールすることで、管理ツールのイベントをESSイベントとして収集します。この収集により、ジョブ管理で検知されたジョブ実行時間の異常と、パフォーマンス管理で検知されたパフォーマンスの低下をESSで結びつけることが可能となります。
アプリケーションやOSが出力するログやsyslog、SNMPトラップをESSイベントとして収集します。ログを検査するモジュールはESSから提供されますが、大きなシステムリソースを必要とせず、今まで監視が必要とされながら実現できていない対象に監視領域を拡げることを可能とします。
全てのイベント、各種管理ツールとアプリケーションやOSのログは、それぞれが全く違うフォーマットになっています。このため、それらをESSイベントにするために、ESS用にイベントを標準化しています。同時にオリジナルのイベントもESSイベント内に残すことで、運用管理者の利便性を高めています。これらのイベントの標準化により、今後優れた管理ツールの導入においても容易に統合監視を実現することが可能となります。
監視対象にエージェントのような実行モジュールをインストールすることなく、基本的な項目の情報を収集します。監視対象側に、何もインストールしたくない、または、何もインストールできない環境に対して、監視環境を提供します。
収集されたイベントは、サイト運用に合わせてメッセージの内容などを変換することができます。英語のメッセージを日本語に変換したり、その順番を変更することができます。同時に、各イベントにセビリティ(重要度)を設定することができます。これは、同じイベントが発生した場合でも、その発生した機器により重要度が変わることがあるため、重要な機器にはより高いセビリティを設定することができます。
ESS統合監視対象ツール
- BMC PATROL
- CA UnicenterTNG
- HP OpenView
- IBM Tivoli NetView
- 日立 JP1
- その他SNMP管理ツール など
ESSリモートコレクタ
監視適用が可能な対象OS・データベース
Windows |
Linux |
UNIX |
- Windows NT4 Server/WS
- Windows 2000 Server
- Windows XP
- Windows Server 2003
|
- RedHat Linux
- Turbo Linux
- 各種 Linux ※
|
- AIX
- HP-UX
- Solaris
- Free BSD
- 各種 BSD系 UNIX ※
- 各種 SVR4系 UNIX ※
|
データベース |
ORACLE |
※監視対象の詳細についてはお問い合せください。
システム監視項目
種別 |
UNIX/Linux |
Windows |
ステータス監視 |
直接PING(該当ノードの死活監視) |
直接PING(該当ノードの死活監視) |
TCPポート(該当ノードのポート監視) |
TCPポート(該当ノードのポート監視) |
CPUパフォーマンス(使用率) |
CPUパフォーマンス(使用率) |
CPU待ちプロセス数 |
イベントログ監視(情報) |
CPU負荷平均(ロードアベレージ) |
イベントログ監視(警告) |
間接PING(監視ノード起点)応答 |
イベントログ監視(エラー) |
コアファイルの存在 |
イベントログ監視(成功の監査) |
スワップ領域使用状況 |
イベントログ監視(失敗の監査) |
ディスク入出力 |
仮想メモリ使用率 |
メモリ使用率 |
プリンタ状態 |
ログインユーザ |
|
ネームサービス(FQDN) |
|
アプリケーション監視 |
テキストログファイル |
テキストログの監視(T2E使用) |
システムログファイル |
プロセス監視 |
プロセス動作 |
サービス監視 |
リソース監視 |
ファイルシステム(iノード使用率) |
ローカルファイルシステムの使用率 |
ローカルファイルシステムの使用率 |
ローカルファイルシステムの残容量 |
ファイル&アクセス監視 |
ディレクトリ・ファイル(作成/変更/削除) |
|
デバイスファイル(作成/変更/削除) |
ファイル作成・改ざん |
パスワード・シャドウファイル他の更新 |
NIC監視 |
ネットワーク(NIC)エラー |
ネットワーク(NIC)コリジョン |
ネットワーク機器監視(共通) |
PING監視(該当ノードの死活) |
PING監視(複数応答AND監視) |
PING監視(複数応答AND・レスポンス時間) |
PING監視(複数応答OR監視) |
PING監視(複数応答OR・レスポンス時間) |
TCPポート監視(該当ノードのポート) |
ORACLE監視項目
種別 |
監視内容 |
マウント状態 |
インスタンスのマウント状態を監視 |
アーカイブプロセス利用状況の監視 |
インスタンスアクティブステータスの監視 |
REDOログ情報 |
REDOログ&ログファイルステータスを監視 |
REDOログバッファ |
REDOログバッファへの書込み待機の監視 |
REDOログバッファの再割当て率の監視 |
テーブルスペース |
Tablespaceの容量、使用率の監視 |
Tablespaceの断片化数&サイズの監視 |
キャッシュ |
バッファキャッシュのヒット率の監視 |
ライブラリキャッシュのヒット率の監視 |
ディクショナリキャッシュのヒット率の監視 |
メモリ |
プール領域と使用状況を監視 |
メモリソートとディスクソートの比率の監視 |
セッション毎のメモリ使用量の監視 |
セッション |
セッション(All、Active、Inactive)件数・待機監視 |
トランザクション |
トランザクション数・処理時間の監視 |
SQL Parse件数・CPU処理時間の監視 |
競合状況 |
REDOラッチ/LRUラッチの監視 |
フリーリスト競合回数の比率の監視 |
ロールバックセグメントの監視 |
イベント表示機能
収集されたイベントはコンソールに表示されます。発生したイベントはESSの設定により6種類のセビリティが追加され、セビリティに応じた表示色で表現されます。各種管理ツールで検出したイベントは、管理ツール側の重要度を尊重し、そのままスルーで表示します。(変更することも可能です)
コンソールには基本的に4つの表示領域、監視対象機器を表示するNavi Tree、論理的なシステム構成図を作成できるMap View、検知したイベントをリスト表示するEvent View、管理者が解決すべき問題を表示するIncident List、があります。
Navi Treeには、イベントが発生した機器とその要素(エレメント)が自動的に追加され、監視対象の増加の度に管理者が操作する必要はありません。また、手動で追加・削除も可能ですので、対象追加・削除時の対応も可能です。
Map Viewに配置された監視対象機器とエレメントは、発生したイベントのセビリティに連動した色で表示されます。この画面はシステム構成に応じて、Navi Treeからドラッグアンドドロップでサイト運用ルールに合わせて作画することができますので、運用技術者がどのサービスで何が発生しているか直感的に判断できるようにすることが可能です。
Event Viewには検出されたイベントがリスト表示されます。ボタン操作により特定セビリティの表示・非表示が可能です。また、項目名とその値によりフィルタリングすることも可能です。
Incident Listは、一定レベル以上のイベントが発生したとき、自動的に生成され、管理者が解決すべき問題として表示されます。事前に監視オブジェクト(監視対象ノードや監視項目)間を、依存と影響関係に関連づけておくことで、関連性のあるイベントをひとつのインシデントとして管理し、対応を進めることで合理的に効率を向上させます。
イベント管理機能
検知されたイベントは、運用技術者によってそのステータスが変更されます。イベントはコンソールに表示される前からいつどこで発生したか時刻が記録されており、運用技術者によるステータス変更時にも時刻が記録されます。このことにより、特定のイベントの発生から対応完了までを時系列でトラックする事が可能となっています。
時刻は、SLAを実現する上で非常に重要な項目となっており、ESSでは中核を成すソフトウェアのシステム時刻を基準とします。
また、特定のイベントに対しての対応履歴を記録していくことができます。これらの情報はESSを利用する全てのユーザで共有することができますので、管理者間のコラボレーションを促進することができます。
時刻を記録した様子
対処内容を記録した様子
運用管理ツールの情報も保持
トラブルの影響範囲と原因分析機能
影響範囲表示イメージ
コンポーネントに対して隣り合わせる「依存」と「影響」に基づいて原因可能性範囲と影響範囲を推論するエンジンを搭載しました。依存情報に基づいて、その影響方向と原因可能性方向に向かってオブジェクトを検索し、範囲をグラフィカルに表示します。この機能により、トラブル発生から、影響範囲や原因の特定に至るまでの時間を短縮することができます。
インシデント管理機能
影響範囲と原因分析機能により、影響範囲と原因可能性範囲が明確になります。このとき、影響範囲と原因可能性範囲に属するオブジェクトに着信したイベントはすべて同一インシデントに属すものとして、新たにインシデントを生成することなく処理されます。
管理者は従来のようなイベント単位ではなく、インシデント単位で問題に取り組むことができるため、管理者の取り組むべき問題がより明確になります。障害イベントは事象を検出する度に発生しますが、実際には1つの問題原因に対して障害イベントが多数発生することになります。問題解決のための取り組むべき単位は、イベント単位ではなく、イベントの集合体としてのインシデント(1つの原因を修正することにより解決できる単位)で扱われるべきです。ESSでは、管理者が取り組むべき問題をインシデントという単位で扱う機能を搭載することで、問題解決までの時間短縮を支援します。
遠隔操作機能
遠隔操作画面のイメージ
インターネット経由のシステム管理など、ファイアウォールに守られたネットワークに対して、セキュリティを保ちながら遠隔操作を可能にする「リモートオペレータ」を搭載しました。特に広域システム管理や、MSPなどの遠隔保守を必要とするケースに、ネットワークの設定や構成を変えることなく、遠隔操作を実現します。
システム管理者向け、システム開発者向けのSSL-VPNとも言うべき機能により、管理者や開発者は遠隔地から情報漏洩の心配なく対処が必要なシステムにアクセスすることができます。
電話回線やISDNなどのリモートアクセスでは、別途RASの管理や電話番号のコストが発生していました。ESSではインターネットに接続できる(インターネットからの接続は不必要)だけで、セキュアなリモートアクセス環境を構築することができます。
従来のSSL-VPNでは、HTTP用のポートのみオープンされており、システム管理者には不十分でした。ESSでは通常のtelnetで使用する23番ポートに加えて、VNCもサポートしています。
VT100相当の画面に表示されたテキストは、全てキャプチャされていますので、トラブル対応の報告書を素早く作成することが可能となります。
また、リモートアクセスのインターフェイスを提供するESSコンソールは、指紋認証システム(特徴点データをESSマネージャに暗号化保存)と連携することができ、リモートアクセス作業者の本人性を担保することが可能となっています。
計画停止時の監視抑止機能
メンテナンススケジュール登録イメージ
1,000台を越えるような大規模サイトを一手に監視する業務では、あちこちでシステムが日常的に計画停止を繰り返され、人間の判断によって計画停止か、トラブルかを切り分けているケースが散見されます。
これは、規模の拡大に伴い、人為トラブルを誘発する恐れがあります。ESSでは監視対象に対して計画停止スケジュールを登録する機能を搭載しました。これにより人為トラブルを最小限にしつつ、日々の運用を効率化します。