IBM Data and AI
DataOpsに不可欠な6つの要素とは
2020年01月28日
カテゴリー DataOps | IBM Data and AI | アナリティクス
記事をシェアする:
すぐ使えるデータを用意するために
企業は、競争、破壊的変革、規制などの圧力にさらされています。顧客の期待に応えるためのデジタル変革とモダナイズの取り組みにおいて、ビジネスのスピードと同じペースでデータとAIを活用できることが最大の差別化要因になります。
しかし、MIT Sloanの調査によると、81%の企業が、データのサイロ化が原因で自社のデータを把握できていません。データの多くは、アクセスできない状態か、できても信頼性が低く、分析もされておらず、ほとんど価値を生み出していません。クラウドとモバイルの広がりを受け、データは急増し、保管される場所も増える一方です。その上多くの企業は、自社のどこにどのようなデータがあるのか、どのシステムでどのような目的で使用されているのか、また、規制やコンプライアンス要件に適合しているのかということを把握できていません。
このような課題を抱えたまま、データ活用によって俊敏性を獲得することは可能なのでしょうか?
企業がビジネス目標の達成を進めていくには、市場のスピードと規模に応じた、ビジネスにすぐに活用でき、信頼できる、いわば「ビジネス・レディな」データが必要です。ビジネス目標とは、役員会などで挙げられる「来期は販売収益を5%伸ばしたい」、「次の3期の間にコストを5%削減したい」、「クロスセルとアップセルの機会を10%拡大したい」などといったことです。しかし、依然としてデータのボトルネックが立ちはだかり、これらの目標達成を阻んでいるのです。
共通するデータのボトルネック
データ主導の企業の多くが、80%の時間をデータ準備に割いており、データが大きなボトルネックであると認識されています。このような企業のデータはビジネス・レディになっていない場合が実態として多いです。データがビジネス・レディでない場合、 企業は往々にして、AIモデルの作成や、データ分析、新たな洞察に向けた反復といったことに時間をかけられず、その前の段階のデータ準備にリソースや時間を費やさざるを得ないのです。
では、どのような性質を持つデータをビジネス・レディなデータというのでしょうか?それは次のような特徴をもっているデータです。その特徴を満たすことが、データを信頼して活用できるようになるために必要なのです。
- 理解しやすく、見つけやすく、使いやすい
- 信頼性が高く、ガバナンスが行き届き、来歴が明らかにされている
- あらゆる角度から捉えたデータの360度ビューとセルフサービス機能を提供できる
ビジネス・レディな基盤の確立により、データ準備にかかる時間は短くなり、新たな市場ニーズやビジネス・モデルに対応するデータ俊敏性と即応性が向上します。
それでは、企業は、大規模かつ迅速な分析とAIの活用を推進するために、どのようにビジネス・レディなデータを実現すればよいのでしょうか?まずは、データの提供者と利用者を結ぶ、精選され、信頼性が高く、自動化されたコラボレーティブなデータ・パイプラインを構築することが必要です。
そして“DataOps”により、ビジネス・レディなデータ実現への工程を加速することができます。
ビジネス・レディなデータの実現に不可欠なDataOpsの6つの要素
ビジネス・レディなデータを実現するために、データの運用、すなわちDataOpsの方法論を活用できます。DataOpsとは、精選され、信頼性が高く、自動化されたコラボレーティブなデータ・パイプラインを現場のデータ利用者である「データ市民」(data citizen)に提供するための、人、プロセス、テクノロジーの連携(オーケストレーション)を指します。言葉としてはDevOpsに似ていますが、DataOpsではデータ提供者とデータ利用者のコラボレーションの実現に重点が置かれています。
DataOpsはデータ運用の多くを自動化し、データ・パイプラインにおけるボトルネックの解消に努めます。そのゴールとは、企業全体にわたって俊敏性や迅速性をもたらし、あらたな施策を生み出していくセルフサービスのデータ・カルチャーです。
信頼できるビジネス・レディなデータ・パイプラインを推進するために不可欠なDataOpsの6つの要素とは次のとおりです。
- データの自動検出や分類、機密データの検出、品質分析、ビジネス用語の自動割り当てなどの機能を持つ、自動化されたデータ・キュレーション・サービス
- データ・リネージュの自動特定や、ポリシー管理と適用の自動化など、自動化された中核的ガバナンスとマスター・データのサービス
- あらゆる種類のデータ資産に対応し企業全体のナレッジ・カタログとなる、オープンなメタデータの自動管理
- マルチクラウドへの対応や複製を含む、ハイブリッド・クラウドなデータの統合と移動、ならびにデータ仮想化
- 検索、データ準備、ワークフロー、コラボレーションなど機能をセルフサービスで活用できること
- 自動化とイノベーションをけん引するAIと機械学習の適用。(この要素により、上記5つの要素が実現可能になります。)
DataOpsにおける次のステップ
DataOpsは、規範的な方法論とフレームワークを提供し、ビジネス・レディなデータの実現を支援します。多くの企業にとって、どこから始めるか決断することが課題となります。そこでいくつかの戦略があります。
- データ戦略を企業のビジネス戦略に合致させる。ビジネス成果を出し貢献しそうなプロジェクトを選びます。プロジェクトを決めれば、おのずと対象にすべきデータのスコープも決まります。
- データ・アセットをカタログ化する。どこにどのようなデータがあるのか、そしてどのようなルールやポリシーを適用するのかを把握していなければなりません。そのためにデータの場所や種類にかかわらず、データの情報を一元化し、アクセスしやすくします。
- オープンなガバナンス・フレームワークを構築する。オープンで拡張可能なプラットフォームにより、どこにデータがあっても対応できる、ハイブリッドかつマルチクラウドなフレームワークを構築します。
- データ品質を確保する。データ利用者が、信頼性が高く、統合・管理された構造化データと非構造化データのフルセットを利用できるようにします。
- 360度ビューを可能にする。顧客、製品、およびエンティティーのマスター・ビューで、俊敏性と迅速なビジネス上の意思決定を推進します。
デジタル変革のため、そして、AIおよびデータの大規模なデータ運用を加速させるため、DataOpsによって、精選され、信頼性が高く、セルフサービス型のビジネス・レディなデータのデリバリーを実現しましょう。
本記事は2019年8月に発表されたこちらのブログ記事 (英語)の抄訳です。
こちらのブログもぜひご覧ください: IBM Data and AI Forum: DataOps (NYCで開催)からの洞察
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む
【予約開始】「SPSS秋のユーザーイベント2024」が11月27日にオンサイト開催
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
本年6月800名を超える方々にオンライン参加いただいたSPSS春のユーザーイベントに続き、『秋のSPSSユーザーイベント』を11月27日に雅叙園東京ホテルにて現地開催する運びとなりました。 このイベントは ...続きを読む