テクノロジー・リーダーシップ

データ活用のためのデータレイクのススメ

記事をシェアする:

著者:白井 徹哉
IBM認定上席ITスペシャリスト日本アイ・ビー・エム グループにおける情報技術(IT:Information Technology)の専門家集団である日本アイ・ビー・エム システムズ・エンジニアリング株式会社(ISE)にて、データベースやその周辺技術を活用したデータ管理ソリューションをお客様に提供する仕事をしています。大量の取引を正確に処理するための基幹業務から、いわゆるビッグデータ活用のためのプラットフォームまで、お手伝いする領域は多岐にわたるため、勉強しなくてはいけないことは尽きませんが、日々楽しく仕事をしています。

こんにちは。日本IBMのテクニカル・コミュニティであるTEC-J(Technical Experts Council of Japan)運営委員メンバーの白井と申します。私は入社以来データベース製品やそれらを活用したソリューションをお客様にご提供する仕事をしきました。今回は、データに深く関係のある話題として「データレイク」を取り上げます。

ビッグデータを取り巻く環境

「ビッグデータ」という言葉が毎日のようにメディアの記事に現れていた状況から数年が経過しました。Volume、Velocity、Variety、Veracityという「4つのV」によって特徴付けられるビッグデータを蓄積、分析するために必要な環境整備のコストは、クラウド・コンピューティングや各種OSSミドルウェアの進化によって驚くほど下がりました。

一方で、ビッグデータを溜める環境を用意したもののデータを溜めるだけにとどまり、十分なビジネス上の価値を上げられていないケースも少なくありません。「ビッグデータ」という言葉も、昨今では以前ほどには目にしなくなりました。ガートナーが毎年発表している「日本におけるテクノロジのハイプ・サイクル」を見ても、ビッグデータは「過度な期待のピーク期」を過ぎ、すっかり「幻滅期」の底に位置づけられています。

今後、ガートナーのハイプ・サイクルにおける「回復期」から「安定期」に進んでゆくこのテクノロジーの利点と適用方法を正しく理解し、その恩恵を受けるためには、どのような取り組みが望まれるのでしょうか。

昨今注目されている技術トレンドの1つ「IoT(Internet of Things)」は、ビッグデータの活用と深い関わりがあります。あらゆる人やモノの動き、そして自社の商品やサービスが利用されている顧客との接点で何が起きているのかを把握し、ビジネス・プロセスやサービスの改善、もしくは新規開発につなげることがIoTの狙いです。( Watson Internet of Things)IoTの恩恵を得るためには、「モノ(Things)」からの情報を集めて蓄積するだけではなく、収集した多種多様な「ビッグデータ」を有効に活用する必要があります。

データレイクとは

IoTの例を持ち出すまでもなく、様々な領域でビジネスの迅速化と高度化のためにデータを活用することへのニーズは高まっています。そのときに大きな課題となるのが、ビジネス・ユーザーに対してIT部門はどのようなデータを提供すべきか、という点です。将来を見据えてユーザー要件を網羅した十分なデータモデルを事前に定義して収集しておくことは現実的に不可能ですし、そのような要件が明らかになってからデータ収集方法やデータ管理のモデルを検討したのでは、要求されるスピードにとても追いつけません。

IBMデータレイク・ポータルサイト 詳細ページへそこで登場したデータ活用のための新しいコンセプトが「データレイク」です。ビジネス・ニーズに必要なデータやそのモデルを最初に決定してから集めるのではなく、非構造化データを含む大量のデータ、例えばWebのアクセスログや機器から生成されるログなど取得可能なデータを比較的安価なIT資源に一旦蓄積し、これらを広く利用できるよう開放する仕組みを用意しようという考え方が「データレイク」なのです。

このように事前にデータを蓄えておく仕組みは、活用したいデータは事前には定義できないが、必要な時は迅速にデータを提供して欲しいというビジネス・ユーザーのニーズに応えることができるという点で有用です。しかし、先行している海外では単にデータを集めただけのデータレイクが「湖」ではなく「沼地」になってしまい、活用できないデータが大量に存在する状況にもなっていると言われています。

IBMが提供するデータレイク・ソリューション

データを蓄積することが直接ビジネス上の価値を生むわけではありません。図は、IBMの考えるデータレイク・ソリューションの全体像です。IBMのデータレイクは、大量データを蓄えるリポジトリの機能だけではなく、それらを活用しやすい環境を実現しています。具体的には、利用したいデータ項目をビジネス・ユーザーが効率よく探索するためのデータ・カタログ、探索したデータを利用者自らがワーク領域上のデータマートに抜き出して自在に分析をするセルフサービスのBIの機能、そしてデータを継続的に管理、再利用するためのデータ・ガバナンスの機能が備わっています。

図:データレイク全体像
図:データレイク全体像

ビジネス・ユーザーが必要なデータを探索するためのデータ・カタログ

このデータ・カタログでは、蓄えたデータのメタデータを保管します。メタデータとは、データの定義情報です。そのデータの意味、そのデータがどのソースから来ているかを示す情報や情報の粒度など、ビジネス・ユーザーがデータを探索する際の手がかりとなる情報です。ここで特に重要なポイントは、単なるデータ項目での検索ではなく、普段使っているビジネス用語でユーザーがデータを検索でき、そのデータの意味や保管場所が自分自身ですぐにわかるようなカタログになっていることです。ユーザー自身がデータを探索できるため、IT部門にデータの準備を依頼することなく、迅速に新たなデータを活用できるようになります。メタデータの管理機能やデータ連携機能の製品である IBM InfoSphere Information Server や IBM InfoSphere Information Governance Catalogの他、IBMはそれら製品を活用した適切な情報管理を実現するためのメソドロジーやソリューションを豊富に持っています。

探索したデータをユーザーがセルフサービスで抽出できる仕組み

必要なデータがカタログ上に見つかったら、各ユーザーがIBM Cognos AnalyticsやIBM SPSSやIBM Watson Analyticsや Apache Sparkを利用してデータ分析を行うことになります。 しかし、各利用ユーザーからの要求の度にIT部門担当者がデータを準備するのでは、データ分析開始までに時間がかかってしまいます。そこで次に重要になるのは、ユーザーセルフサービスでデータを抽出できる仕組みです。 その際に各ユーザーが一時的にワークデータを保管できるようなSand Box(ワーク領域)も必要になります。Sand BoxはRDBかも知れませんし、HDFS(Hadoop File System)やクラウド上のストレージかも知れません。

データを継続的に管理・再利用するためのガバナンス

データ検索のためのカタログは、1回作れば終わりではなく、メンテナンスしないとすぐに使えないものなってしまいます。 新しいデータの追加、データの意味の変更や保管場所の変更があった場合には、それらがカタログに適切に反映されてなくてはなりません。 IBMのデータレイクが提供する継続的なデータ・カタログ管理の仕組みを活用することで、カタログの精度を維持するこができます。

また、データの中には、蓄えたものの全く利用されないものも出てくるかも知れません。 誰がどういうデータをみたのかモニタリングし、利用頻度の高いデータはどれなのか、また全く利用されないデータはどれなのかを判定することで、適切なデータ・ライフサイクル管理を行うことが可能になります。

データレイクに取り組むためのアプローチ

データレイクの構成要素をいくつか紹介してきました。データの蓄積基盤、データのカタログとガバナンスの仕組み、各ビジネス・ユーザーが自由にデータ分析できるセルフBIの仕組みなど、いずれもデータを活用するために大切ですが、最初から完璧にすべて整備するには多大な労力がかかります。既存の資産がそのまま有効活用できるなど着手しやすいところはどこか、ビジネス上の優先度はどこか、などを検討し、小さくはじめて段階的に機能拡張してゆくようなアプローチが良いでしょう。

以上、IBMのデータレイクについて簡単に紹介しました。
興味を持たれた方は、弊社ポータルサイトビッグデータ時代のデータ活用基盤「データレイク」や関連テクノロジーのサイトData Lake Foundationも是非覗いてみてください。 IBMの提供する各種データ・ガバナンスのソリューションについて興味のあるかたは IBM Information Governance Solutionsの無料ダウンロードをお勧めいたします。

More テクノロジー・リーダーシップ stories
2022年12月16日

女性技術者がしなやかに活躍できる社会を目指して 〜IBMフェロー浅川智恵子さんインタビュー

ジェンダー・インクルージョン施策と日本の現状 2022年(令和4年)4⽉から改正⼥性活躍推進法が全⾯施⾏され、一般事業主⾏動計画の策定や情報公表の義務が、常時雇用する労働者数が301人以上の事業主から101人以上の事業主 […]

さらに読む

2022年12月9日

Qiskit Runtimeで動的回路を最大限に活用する

私たちは、有用な量子コンピューティングのための重要なマイルストーンを達成しました: IBM Quantum System One上で動的回路を実行できるようになったのです。 動的回路は、近い将来、量子優位性を実現するため […]

さらに読む

2022年12月8日

Qiskit Runtimeの新機能を解説 — お客様は実際にどのように使用しているか

量子コンピューターが価値を提供するとはどういうことでしょうか? 私たちは、価値を3つの要素から成る方程式であると考えます。つまりシステムは、「パフォーマンス」、「機能」を備えていること、「摩擦が無く」ビジネス・ワークフロ […]

さらに読む