Data Science and AI

システムがクラッシュする前にITの不具合を見つけ修正する

記事をシェアする:

IBMはAIOps Insightsプラットフォームにwatsonxの生成AIを導入し、IT障害の迅速かつ正確な修復を実現します。

IT障害はとても高くつくことがあります。短時間の停止でもビジネスの損失は数百万ドルに上る可能性があり、そしてオンライン・ビジネスが増えるにつれてこうした障害の代償は大きくなっています。しかし幸いなことに、大惨事になりかねないそのような障害をITチームが未然に防ぐのにAIが有用です。

長年にわたりIBMのITオートメーション・ポートフォリオは、ITエキスパートが障害を早期に特定し、被害が拡大する前に対処することを可能にしてきました。IBM Researchは現在、AIOps Insightsプラットフォームの最新バージョンを強化しており、IT問題に対する最も正確な解決策をより迅速かつ容易に見つけることができるインテリジェントな修復機能を新たに搭載しています。

IBM AIOps Insightsは、IBMの次世代AIプラットフォームwatsonxを通じて大規模言語モデル(LLM)と生成AIの機能を間もなく装備することになります。この機能は、障害のサマリーを作成し、推定される原因を特定し、AIが推奨する一連の改善ステップを通じてチームをガイドします。このエンド・ツー・エンドのソリューションは、対応時間と結果を劇的に改善する可能性を持っています。

今日、IBM AIOps InsightsはクライアントのIT環境からデータを収集し、データの相関関係を探して潜在的な問題を特定します。障害が発見された場合、当番のIT運用エキスパート(次の例ではケイティということにしましょう)に通知されます。

IBM AIOps Insightsは、ケイティの企業アプリケーションのユーザーの5%が、ミッション・クリティカルなワークロードを危険にさらす可能性のある速度低下を経験していることを検出しました。障害の特定機能により、データ・ストレージ・アプリケーションのRedisがボトルネックの原因であることが特定されました。IBM AIOps InsightsはRedisが障害の原因として可能性が高いことをケイティに知らせます。

障害原因の診断

IBMのAIOps Insightsの新バージョンのインテリジェントな修復モジュールは、この探索をスピードアップし、速度低下の原因の発見をガイドし、ミッション・クリティカルなワークロードが中断される前に迅速に修復するのに役立ちます。

AI、強化学習、因果分析を使用して、AIOps Insightsは監視データのストリームを取得し、Redisでどんな問題が生じている可能性があるかについての仮説を導き出します。AIOps Insightsは次に、より多くの情報をプローブして分析し、各仮説を除外して、最終的に、速度低下の最も可能性の高い原因としてRedisのCPU使用率の高さ(CPUキャッシュのスラッシングと呼ばれるもの)を特定します。

この検証された診断に続いて、AIOps Insightsは間もなく、IBM Researchによってwatsonx上で学習された、IBM Graniteファミリーの130億パラメーターのLLMをリアルタイムで呼び出すようになります。このモデルは、必要に応じてケイティが検証できるように、診断をサポートする証左のリストとともに障害のサマリーを提供する予定です。

推奨されるアクション

このようなAIの助けを借りて、ケイティは速度低下の原因がおそらくCPUにあるということを突き止めました。次のステップは、システムを復旧させる方法を見つけ出すことです。そこで登場するのが、リアルタイムで知識ベースから事実を検索するAIのフレームワーク、RAG (検索により強化した文章生成)です。

AIOps InsightsはRAGを活用して、IT問題を解決するための最も正確で最新の推奨事項を見つけ、生成します。AIOps Insightsは、watsonx LLMを呼び出して、KubernetesやDockerなどのプラットフォーム上のコンテナ化されたワークロードに関連する問題のトラブルシューティングに関するヒントのオンライン・データベースから情報を引き出します。

知識ベースは実行時に使用され、迅速なアクションの推奨と実行可能なスクリプトをケイティに提供します。すなわち、問題のノードを閉鎖し、レプリカ・セットをスケールし、障害のあるノードのRedisポッドを削除してRedisステートフルが新しいポッドを作成するようにし、Redisステートフル・セットを元のレプリカの数までスケールダウンします。

通常、ケイティは提案された改善策を実行するために、自分でスクリプトを書きます。アクション・レコメンデーション・モジュールは、最も関連性の高い知識を提供することで、より速く、より正確にその作業を完了させることができるようにします。

ケイティは推奨されたスクリプトを検証、コンパイル、実行します。数秒のうちにシステムは正常に戻ります。システム停止、あるいはもっと深刻な下流の危機は回避されました。この障害の結果はランブックに追加することができ、一度承認されれば、同様の問題が発生した場合に再利用することができます。

IBM AIOps Insightsは、watsonxによるインテリジェントな修復を利用することで、ITエキスパートがIT不具合の最も可能性の高い原因を特定し、それが長期的でコストのかかる混乱に発展する前に対処できるようになっています。

この記事は英語版IBM Researchブログ「Find and fix IT glitches before they crash the system」(2023年9月28日公開)を翻訳し一部更新したものです。

More Data Science and AI stories

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

目次 販売管理システムを知名度で選んではいないか? 電子取引データの保存完全義務化の本当の意味 ふくろう販売管理システムは「JIIMA認証」取得済み AIによる売上予測機能にも選択肢を 「眠っているデータの活用」が企業の ...続きを読む


テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ

IBM Cloud Blog, IBM Data and AI

IBM テクノロジー・ビジョン・ロードマップ – IBM テクノロジー・アトラスを戦略的・技術的な予測にご活用いただけます – IBM テクノロジー・アトラスとは? IBM テクノロジー・アトラス ...続きを読む


データ・ロードマップ

IBM Data and AI

生成AIによるビジネス革新は、オープンなデータストア、フォーマット、エンジン、製品指向のデータファブリック、データ消費を根本的に改善するためのあらゆるレベルでのAIの導入によって促進されます。 2023 オープン・フォー ...続きを読む