MENU

IBM Z Anomaly Analytics with Watsonによるログ解析と異常検知 ~AIを活用したIBM Z向けの先進ログ管理プラットフォーム


Text=天野 恭子、清水 伴訓 日本アイ・ビー・エム システムズ・エンジニアリング

ログ分析・管理の強化の必要性 

現在、私たちを取り巻く環境は、デジタル・トランスフォーメーションがもたらす大きな変革の中にあり、そのようなデジタル環境に対するサービスの継続性や可用性への要求はますます大きくなっている。

一方で、システムのハイブリッド化に伴う複雑度の増大により、運用・監視が難しくなっているのも事実である。このため、システム運用の高度化を進めなければ、インシデントの発生時に根本原因を検出・判別することが困難となる。

従来のログ管理というと、たとえばシステム・ログに関しては、これを保管して証跡として利用したり、インシデントが発生したときに過去のログを遡って何か異常なメッセージが出ていないかを確認するために使われていた。

また、パフォーマンス・ログについては総括的なパフォーマンス・レポートを月次等で作成する、あるいはインシデント発生時にその前後のログを確認する、といった使い方が一般的であった。

パフォーマンス関連ログは、[トランザクション数]×[関連するミドルウェア数]で増加するため、相関関係に注目しながら人手でチェックするのは難しく、自ずとチェックするタイミングがインシデント発生時に限られるため、タイムリーな確認はこれまで困難である場合が多かった。

これを一歩進めて、より能動的にログを活用しようというのが、現在のログ管理の方向性である。具体的には、以下のようなログ管理プラットフォームが求められている。

◎多種多様なログを統合し、統一されたインターフェースで操作することで、プラットフォームのスキルに依存しないログ管理を実現

◎容易なログの検索、すでに用意された知見に基づく分析、各種ビューによる可視化の実現による迅速な分析の支援

◎AI(機械学習)を活用してログを分析し、インシデントの特定を支援、あるいはインシデントの発生を事前に検知

◎問題発生時にSNS等のネットワークサービスも活用したアラートの送信

「IBM Z Anomaly Analytics with Watson」(以下、IZAA)は、上記の機能をIBM Z向けに提供している先進ログ管理プラットフォームである。

IBM Z Anomaly Analytics with Watsonとは

IZAAは、IBM Z向けのログ管理ソリューションである。

“Anomaly“という単語は、あまり聞き慣れないかもしれないが、「異常」「例外」といった、標準的な状態から外れていることを指す。

現在、IZAAはバージョン5.1だが、前バージョンであるV4.1の時の名称は、「IBM Z Operations Analytics」 (IZOA)であった。AIOpsを実現する製品であることがよくわかる名称であったが、今バージョンでは「異常」をAIによって分析、事前検知し、管理コストを最小限にするという製品のコンセプトを象徴する名称になっている。

IZAAでは、各種製品の出力するSMFログを入力としてメトリック異常を検知したり、SYSLOGを入力として平常状態かどうかを識別することが可能である。異常な状態の識別は、人間が基準値を作ったり、エラーメッセージを登録するのではなく、平常状態の各種ログをAIで学習し、そうして作られた平常状態モデルをもとに、どの程度平常状態から逸脱しているかを判断する。

IBM Z Anomaly Analytics with Watsonの機能 

IZAAには、以下のような機能がある。

環境のモデル化 

過去数週間分の平常状態の各種SMFログ、SYSLOGをAIに入力し、平常状態のモデルを作成する。モデルには静的な閾値を用いるのではなく、時間や曜日によって適切な基準が割り出される。

たとえば、月曜日の午前中はトラフィックが集中するが、水曜日の昼は余裕がある、というようなブレは実際の環境にはよく見られ、そういった変動を含めてモデル化することが可能である。

メトリック異常検知

SMFデータをもとに、平常状態からの逸脱度を示すアノマリーの検知をリアルタイムに近い状態でスコアリングし、異常を検知する。各ミドルウェア(CICS、Db2、MQ)用にKPIモデルが用意されており、人間がデータを分析する手間を軽減できる。

IZAAによるメトリック異常検知

ログ異常検知

SYSLOGに通常現れないメッセージが表示された、あるいは通常少ししか現れないメッセージが大量に出現した、といった平常状態とは異なる状態を検知する。

イベント通知

異常を検知した場合、迅速に可視化する。特に、「IBM Cloud Pak for Watson AIOps」と統合してイベントを送信することが可能である。


Proof of Concept (PoC) のポイント

機械学習を活用するソリューションを採用する際には、どのくらいの期間のデータが必要なのか、検知の精度が目標に達するのか、といったことが課題になる。

それらの課題は実際に試してみないとわからないことが多くあるため、PoCでの実証実験を行い、実用に向けての課題を確認し、精度を上げていく検証などを実施する。

IZAAのPoCを実施する場合、機械学習への入力用として、まず3週間程度の訓練用データを使用することが一般的である。

IZAA予測モデルのトレーニングおよびスコアリングに使用するデータ(イメージ)



IZAAのPoCでは、まず平常稼働日データをもとにした予測傾向と、検証対象日の稼働データとのズレのスコアを、一画面上で可視化することによって、発生事象への対応を迅速化できることを確認する。一般的には、以下を確認して、運用効率化の効果を予測する。

◎IZAAのProblem Insights画面で、訓練データをもとに作成された定常稼働モデルから予測とシステムの稼働の実測値を容易に可視化できるかを確認する。

◎システム安定稼働のための複数のKPI値に対して、予測からのズレもスコアとグラフにより可視化され、数ステップでシステム稼働状況を確認し、発生事象(インシデント)やその要因を把握できるかを確認する。

事象対応の迅速化



また、異常とすべきではないデータが予測から外れて異常として過検出されるケースがないかを確認することも重要である。具体的には、予測値の範囲が狭くなるケースや、予測時間帯がずれるケースなどがあり、一般的には以下を実施する。

◎機械学習させた訓練データが平常日のみの場合などに、平常として見なされるKPI値の範囲が狭いため実測値が入らない、あるいは稼働時間の違いのため予測時間帯に入らない、といった過検出が発生するかを確認する。

◎実運用にて、異常を検知しすぎる過検出が多く発生しないように適正化するため、訓練データにどの特異日を追加するか、訓練データ期間をどう調整するかなどを確認する。

予測からのズレの過検出

機械学習を活用した
IBM Z運用の方向性とシステム運用ソリューション

機械学習を活用したIBM Zの運用を検討する場合、過去のデータを用いて「通常」状態を把握することから始める。

次に、ほぼリアルタイムのデータを使用し、通常のシステム動作からの逸脱を予測分析とともに検出し、発生事象とその原因特定の迅速化の実現に向けて、どう運用データを活用するかを検討する。

また早期介入のために、「警告」の利用を検討する場合もある。

さらに将来的には、事象に対応するための対応策に関するガイダンスを取り込み、「通常」状態を管理して障害への先制行動を自動化し、システムの自律的運用の実現を目指すべきである。それ向けて、システム運用をサポートする複数のソリューションを適宜組み合わせることも検討する。

機械学習を活用したIBM Z運用の方向性とシステム運用ソリューション


IBMのAIOpsプラットフォームは分散系システムやクラウド、IBM Zを含むシステム全体に渡ってパフォーマンス・データや依存関係を可視化し、インシデント管理を支援する。

IBM Zの運用については、多くのケースで活用されているOMEGAMONなどによる包括的な監視に加えて、機械学習を使ったIZAAによる通常と異なるシステム動作の検知と原因特定により問題に迅速に対応することが可能となり、運用高度化が実現できるようになる。

IBM Enterprise AIOps-システム全体でのプロアクティブなインシデント管理

著者
天野 恭子氏

日本アイ・ビー・エム システムズ・エンジニアリング株式会社
データ・テクノロジー
シニアITスペシャリスト

1996年に入社以来、主にDb2 for z/OS関連製品を中心に基幹システムの技術支援に携わる。近年はメインフレームデータの機械学習を含むz/OSデータ活用についても技術支援を実施している。

著者
清水 伴訓氏

日本アイ・ビー・エム システムズ・エンジニアリング株式会社
ミドルウェア・テクノロジー
シニアITスペシャリスト

1998年に入社以来、主にメインフレーム上でのJava、WebSphere関連の技術支援を担当。2012?2019年はテクニカル・セールスとして活動。近年はクラウドやAIOps製品の勉強をしつつ案件に参画している。

[i Magazine・IS magazine]