IBM クラウド・ビジョン
AIOpsで複雑化するシステム運用管理の課題を解決! ハイブリッド・マルチクラウド時代は運用管理もAIが支援
2020年12月07日
カテゴリー IBM クラウド・ビジョン | IT部門向け | クラウド管理
記事をシェアする:
ハイブリッド・マルチクラウド化の進展によって複雑化が進む企業システム環境。その運用管理の効率化や障害対応の迅速化、さらには障害の未然防止を実現するアプローチとして注目を集めているのが「AIOps」です。システム運用管理にAIを活用して運用担当者の業務を支援するAIOpsは、オンプレミスとクラウド、仮想環境やコンテナ環境の活用によって一気に複雑化したシステム環境を一元的に管理しながらデジタル変革の基盤としてスピーディーに活用していくうえで不可欠な技術となりつつあります。本記事では、今日のシステム運用管理が直面しているさまざまな課題を再確認したうえで、IBMが自信を持ってお届けする最新のAIOpsソリューションの特徴と活用効果をご紹介します。
内田 晶子
日本アイ・ビー・エム GTS事業本部 ISグロースプラットフォーム
オファリング&チーフテクノロジーオフィサー オファリング担当部長
GTS ISオファリングの企画/開発/推進を担当。ハードウェア担当営業や営業管理/事業管理、経営企画を経てGTSオファリングでレジリエンシーソリューション(事業継続)企画を担当した後に現職。現場と事業管理部門での経験を生かし、お客様により付加価値の高いサービスをお届けしていくために、日本およびグローバルのメンバーと日々、切磋琢磨している。
堤 康広
日本アイ・ビー・エム クラウド&コグニティブ・ソフトウェア事業本部
クラウド・インテグレーション事業部 Strategy&Offering アーキテクト
RedHat製品やAIOpsなどのコグニティブ・ソフトウェアに関するオファリングやパートナーとの協業推進を担当。前職では外資系金融企業でインフラ・マネージャーやアーキテクトとしてインフラ全般の管理/設計に約20年間従事。近年はアプリケーションのコンテナ化、オンプレミスからパブリッククラウドへの移行などのクラウド・ジャーニーを推進してきた。これらの経験を生かし、お客様の課題解決のご支援に全力で取り組んでいる。
企業システム環境の変化とシステム運用管理が直面する新たな課題
新型コロナウイルスの流行は社会やビジネスの環境を一変させ、企業におけるデジタル変革(DX)を一気に加速させました。それを支えるお客様のシステムについても、従来とは大きく環境が変化しており、運用管理に関して次のような課題が浮上しています。
▶システム環境全体を把握できない/可視化できない
昨今は企業におけるクラウドの活用が進み、複数ベンダーのクラウドを利用することも珍しくなくなりました。その結果、ハイブリッド・マルチクラウドが一般的となった企業システム環境では、オンプレミスやベンダー各社のクラウド上で個別のシステムがサイロ化しており、システム環境全体の稼働状況や運用状況を把握できていないという悩みが聞かれます。
ハイブリッド・マルチクラウド環境では、さまざまな場所、多様な環境でアプリケーションやサービスが動作し、それぞれが各種のイベントやログ情報を生成してアラートを発します。それによって“アラート洪水”が発生し、どこで深刻な障害が起きているのかを把握しづらくなるほか、横断的な分析や意思決定も難しくなります。
▶運用管理のコストと複雑さが増大している
システム環境がハイブリッド・マルチクラウド化した企業では、システム環境ごとに運用管理に用いるスキルやツール、プロセスが異なっており、それによって運用の手間やコストの増大、運用管理の複雑化が進んでいます。
可用性を高めるクラウド特有の技術も、複雑性を高める大きな要因です。
オンプレミスからクラウドに移行したシステムは、仮想マシン(VM)上のものも含め、高負荷時には自動的にスケールアウトし、障害発生時には自動的に別のノードに移り構成(トポロジー)を変えながら動作し続けます。これは可用性の観点では有益ですが、運用管理の観点では常に構成が変わり続け、どこで何が動いているのかをリアルタイムに把握しづらくなることを意味します。その結果、障害などが起きた際にどのアプリケーションが影響を受けるのかといった影響分析が極めて難しくなります。
また、アジャイル開発やマイクロサービスの浸透によってアプリケーションのリリース・サイクルが短くなり、常に新たなアプリケーションがシステム環境に加わったり、変更が加えられることも複雑性を高める一因となっています。
▶障害対応と解決に時間がかかる
複雑化の弊害として、障害対応では事後対応が中⼼となり、障害発生時の問題の特定と解決に多くの時間がかかっていることも大きな課題です。
多くの企業では、システムで障害が発生した際には個々の担当者にアラートが届き、個別に原因究明に当たります。そして、深刻な障害については対策会議が開かれ、対応策を検討して承認を得て実行に移るといった具合に、全てが“マニュアル(人手)”による対応で進められています。しかも、同じ問題が繰り返し発生しています。その結果、多くの時間とコストがかかり、システムのダウンによる機会損失が発生しています。DX時代にはシステムの停止がビジネス損失に直結するため、経営リスクが増⼤しているとも言えるでしょう。
AIOpsで企業システム運用管理をプロセスから変革する
システム環境の主流が従来型のエンタープライズ・システムからハイブリッド・マルチクラウドに移るこれからの時代には、運用の仕組みやプロセスも、それに適したものに変えていかなければなりません。人手に依存した従来型の運用管理から脱却し、人が行っていた作業をツールによって自動化するだけでなく、AIを活用して運用プロセスそのものも高度化および自動化し、人の介在を極力減らすことも必要になるでしょう。
いくら優れたツールを整えても、それを使うプロセスが旧来のままでは、ツールの価値を十分に生かすことはできません。それにAIを活用して変革していこうというアプローチがAIOpsです。
AIOps(AI for IT Operations)とは、AI、つまり機械学習とデータサイエンスをシステム運用管理に適用するという考え方です。これを活用することで、企業システムの運用管理はどう変わるのでしょうか? 下図の上段は現在の運用管理、下段はツールによる自動化とAIOpsを活用した運用管理のイメージを表したものです。
前述のように、現在のシステム運用管理は環境が多様化する中でも人手に大きく依存しています。何か問題が起きた際には各システム環境の担当者が対処方法を検討して実行しますが、その判断や方法は属人化している部分が多く、これが迅速な対応を難しくしています。実際の対処作業ではコマンドの手入力が多く行われ、しばしばタイプミスによるオペレーションミスが生じています。
そうした状況を改善するための第一歩として、まず属人化したナレッジなどを可視化して標準化したうえで、ツールを活用して極力自動化します。これにより、誰でも同じ品質で障害対応が行えるようになります。
また、さまざまな環境から発せられる膨大なアラートやログの中から重要な情報を人が判断して見つけるのは困難です。そこで、AIを活用してそれらのデータを分析し、障害の予兆を見つけたり、対応手順(ランブック)の提示や運用改善のための洞察を得たりすることで、障害対応の迅速化や自動化、高度化を図ります。
IBMは、従来よりソフトウェアやクラウド・サービスにAIの機能を積極的に取り入れ、お客様の運用管理の高度化をご支援してきました。その代表的なソリューションとして、以降では次の3つをご紹介します。
●IBM Watson AIOps、IBM Cloud Pak for Multicloud Management:「要件に合わせてカスタマイズしながら自社で運用して使いたい」というお客様に最適なソフトウェア・ソリューション
●IBM Multicloud Management Platform(MCMP):「手間をかけずに早く導入し、ツールの運用負担も下げたい」というお客様に最適なSaaSソリューション
IBM Watson AIOps ─ AIによる洞察を活用して運用管理を高度化&自動化
Watson AIOpsは、システムの異常に関する検知や診断、対応を行う過程でAIを活用し、対処時間を短縮しながら省人化して効率的なインシデント対応を行うことで、アプリケーションやサービスの可用性を高め、ビジネス機会損失の最小化やビジネス継続性の向上を実現するソリューションです。IBMが以前から提供している各種AI機能を統合して新たに誕生しました。
下図に示すのは、Watson AIOpsのアーキテクチャーです。
▶正常稼働時と異なる挙動/構成を検知して担当者に通知
Watson AIOpsは、システムをモニタリングすることで得られるイベント情報やアラート情報、パフォーマンスに関する数値データやメトリック情報、構成情報などの構造化データに加えて、インフラやアプリケーションが生成するログ情報、さらにはインシデント対応時に作られるチケット情報などを継続的に分析しながら、正常稼働時のパターンを学習して分析モデルを作ります。
その分析モデルに基づいてシステムのモニタリングを行い、平常時と異なる挙動を検知すると異常の予兆と判断し、Slack やMicrosoft Teamsなどのチャットツールを介して運用管理の担当者や担当チームに提供します。システムの構成情報も学習しており、「問題が生じているコンポーネントがどこで動作しており、そのコンポーネントと依存関係にあるどのサービスやノードが影響を受けている可能性があるのか」といったことも併せて通知します。
これらの通知の内容を確認した担当チームは、そのままチャットツール上で連携しながら問題に対処することで、問題の原因や影響範囲を速やかに把握しながら組織的な対応が行えるのです。
▶過去のインシデント情報を基に“次に取るべきアクション”を提案
また、Watson AIOpsはチケット情報から過去に起きたインシデント情報を学習しており、現在起きている事象と類似したインシデントが過去に発生している場合、その類似度合いに応じてランキング形式で表示し、併せてその際に取られた対応手順まで提示します。担当者はその内容を参考にして次に取るべきアクションを判断することで、人の介在を極力減らしながらもスピーディーに問題解決を図れる点が、他社のAIOpsソリューションと大きく異なる特徴です。
▶国内クラウド・サービス・プロバイダー様は“サイレント障害”の検知にWatson AIOpsの機能を活用
Watson AIOpsが提供するAIOps機能の効果は、すでに国内のお客様も実感されています。例えば、あるお客様は、プライベートクラウド基盤で発生する“サイレント障害”を捉えるために活用されています。
このインフラは適切に運用管理しているのにもかかわらず「原因不明のパフォーマンス低下が生じる」といった事態が発生していました。そこで、AIOps機能の1つであるメトリクス分析を使って平常時のネットワークトラフィックやエラーパケットを学習させ、それらと異なるパターンを検知した際には異常の予兆としてアラートを出すよう設定されました。
そのようにして運用していたところ、あるとき普段より多くのエラーパケットが発生する機器が見つかり修正したところ、パフォーマンスの改善につながりました。
IBM Cloud Pak for Multicloud Management ─ インフラの払い出しとモニタリングを効率化
IBM Cloud Pak for Multicloud Managementは、コンテナ・プラットフォームであるRed Hat OpenShift上に、オープンソース・ソフトウェアやIBMの運用管理ツールをパッケージングした製品であり、Watson AIOpsと組み合わせることによって運用の高度化をサポートします。ここでは、自動化と可視化を支える2つの機能をご紹介します。
1つはインフラの払い出し(リソース割り当て)機能です。通常、インフラの払い出しはVMwareなどの仮想化基盤やクラウド・サービスごとに専用のツールを使って行うため、ツールを使い分けながら環境ごとに作業する必要があり、多くの手間と時間がかかります。使い慣れていないツールを使うことによって設定ミスなどが生じる場合もあるでしょう。それに対して、Cloud Pak for Multicloud ManagementではオンプレミスのVMや各社のパブリッククラウドも含めて1つの画面で統合的かつ自動的にインフラの払い出しを行えるため、スピーディーかつ効率的に作業を行い、ミスも減らせます。
もう1つは、払い出したインフラのモニタリング機能であり、VMやコンテナの上で動作するアプリケーションのモニタリングにも対応しています。ただし、多くの企業は環境ごとに長年利用しているモニタリングツールがあり、個別の環境の運用管理ではそれを使いたいというケースが多いでしょう。そこで、Cloud Pak for Multicloud Managementでは各モニタリングツールが発するアラート情報を集約して高度なフィルタリングを行い、重要なアラートだけを検出して統合的なモニタリングと迅速な対応を支援します。
IBM Multicloud Management Platform ─ AIOps機能を備えた運用管理サービス
MCMPは、ハイブリッド・マルチクラウド環境のさまざまなシステムやツールからログなどのデータを収集して可視化し、システムの一元管理を支援する統合プラットフォームです。
MCMPの特徴の1つは、企業内でシステム利用にかかわる全ての部門/ロールの方々が参照する統合ダッシュボードを提供している点です。
また、もう1つの特徴は、それぞれの部門/ロールの業務に特化したアプリケーションをサービス(SaaS)として提供している点です。現在はクラウド・サービスの選定や導入を行うIT企画部門、アプリケーション開発部門、クラウドの利用料などを管理する財務部門向けのアプリケーションを提供しており、さらに2021年にはハイブリッド・マルチクラウド環境の運用管理を行うシステム運用部門向けのアプリケーションとして「MCMP AIOps」がリリースされる予定です。
MCMP AIOpsは、大きく2つの機能を提供します。1つは、ITリソースの可視化機能であり、オンプレミスやクラウドなどにあるITリソースの状況を、さまざまな管理ツールと連携しながら一元的に可視化することができます。
もう1つは、システムのパフォーマンスや運用に関して分析を行い、その結果を洞察(インサイト)として管理者に提供する機能「Actionable Insights」です。
Actionable Insightsは、ログやチケット情報などの分析を行い、デバイスや未解決のチケットに対する推奨アクションを提示します。例えば、ファームウェアのアップグレードが推奨されるストレージ機器の一覧を表示して障害を未然に防いだり、処理の自動化が可能な未解決のチケットを提示して自動化を促進したりといった具合です。
また、膨大なアラート情報の中から重要な情報をフィルタリングして表示したり、イベントの相関関係や因果関係を分析したりする機能なども備えています。
これらの機能を活用することで、運用管理の担当者は障害発生時により的確な判断をスピーディーに行い、障害収束までの時間を短縮できるようになります。
なお、MCMPが提供する洞察は、同サービスを利用するさまざまなお客様のデータを分析することによって日々、洗練されていきます。そのため、継続的にご利用いただくことで、より優れた洞察が得られるようになることも大きな特徴であり、メリットです。
以上、ハイブリッド・マルチクラウド時代のシステム運用管理が直面している課題と、それを解決するIBMのAIOpsソリューションをご紹介しました。AIOpsは、早期よりAIに取り組んできたIBMが得意とする領域の1つです。複雑化が進むシステム環境を効率的に管理しながらDXを加速するために、ぜひ私たちのAIOpsソリューションをご活用ください。
関連リンク
可観測性(オブザーバビリティー)の重要性-IBMのInstanaの買収がAIOpsのゲーム・チェンジャーとなる理由
COBOLプログラマー不足に取り組むIBMのコード・ライティングAI
Data Science and AI, IBM Cloud Blog, IBM Data and AI...
IBMの新しいモダナイゼーション・ソリューション、 watsonx Code Assistantにより、開発者は COBOL アプリケーションを IBM Z およびハイブリッド・クラウド向けに最適化された高品質の Jav ...続きを読む
システムがクラッシュする前にITの不具合を見つけ修正する
Data Science and AI, IBM Data and AI, IBM Watson Blog...
IBMはAIOps Insightsプラットフォームにwatsonxの生成AIを導入し、IT障害の迅速かつ正確な修復を実現します。 IT障害はとても高くつくことがあります。短時間の停止でもビジネスの損失は数百万ドルに上る ...続きを読む
共同PoCで実証する運用高度化ソリューション IBM Turbonomic ARMの実力 ~IBMビジネスパートナーエグゼクティブフォーラム講演レポート~
IBM Cloud Blog, IBM Partner Ecosystem, クラウド管理...
昨今の急速なクラウド化に伴い、企業のシステムが大きな変革を迫られている今、その運用の効率化や人材の確保が急務となっています。AIを活用した運用高度化ソリューションで見出す解決方法について、2022年11月25日IBMビジ ...続きを読む