IBM Data and AI

実践！IBM Cloud Pak for Dataチュートリアル（Multicloud data integration前編）

2022年07月22日

カテゴリー DataOps | Hybrid Data Management | IBM Cloud Blog | IBM Data and AI | IBM Watson Blog

記事をシェアする:

はじめに

「IBM Cloud Pak for Dataを手軽に試してみたい」という要望にお応えして、クラウド環境で手軽にお試しいただけるチュートリアルが完成しました。チュートリアル全般については

こちらの記事 →https://www.ibm.com/blogs/solutions/jp-ja/practice-cp4d-01 でご紹介しています。

本記事では、Data fabricの4つのチュートリアルのうち、“Multicloud data integration”について、日本語で手順をご紹介します。チュートリアルのリンクはこちらです（英語）。

https://dataplatform.cloud.ibm.com/docs/content/wsj/getting-started/df_data_integrate.html?adoper=178484_1_PB1

本チュートリアルのイメージ動画はこちらです。

（概要）https://video.ibm.com/recorded/131931996

（詳細）https://video.ibm.com/recorded/131932068

想定シナリオはData fabricの４つのチュートリアルで共通で、下記になります。

Golden Bankは、新たに、低金利の住宅ローンの取り扱いを始めることでビジネスを拡大したいと考えています。マーケティング施策とAIを使い、銀行の顧客を拡大、また申し込み処理コストは削減したいと考えています。一方で不適格なローン申請者に融資できないという新しい規制を遵守する必要があり、その対応を実施しなければいけません。

“Multicloud data integration”では、ローン関連の複数のデータソースから必要なデータを抽出してCSVファイルに統合し、分析ユーザーに公開するところまでを実施します。

このチュートリアルはIBM Cloud上のIBM Cloud Pak for Data as a Serviceのライトプランでお試しいただくことができます。ライトプランは、使用時間(CUH)の制限や、作成、登録できるアセットの数や機能に制限があるのでご注意ください。もし既に、ライトプランで別のサービスを試されている場合は、上位プランへの変更や、新規アカウントの新しい環境でお試しいただくこともご検討ください。

IBM Cloud Pak for Data as a Serviceの登録手順については、下記の記事をご参照ください。https://qiita.com/Asuka_Saito/items/df3467dc4c9919772c63

１.Multicloud data integrationチュートリアル概要

Multicloud data integration のチュートリアルでは、Golden Bankのデータエンジニアとして、住宅ローン申請の判断のために、下記の異なるデータソース上の4つのデータを統合し、統合したデータを公開する一連の流れを体験できます。

ローン申請データ
申請者データ
申請者のクレジットスコア
クレジットスコア別の適用金利

チュートリアルで行う操作は事前準備+10ステップで、Step1-8はデータの加工/統合のためのETLフローの編集、Step9-10はデータカタログへのデータ公開で構成されています。

Step1-8：チュートリアルの実行環境を導入すると、元となる修正前のETLフローが保存されているので、修正前フローを編集して、必要なデータ加工処理などを追加し、新たなETLフローを開発します。
Step9-10：ETLフローで出力されたデータをデータカタログに登録します。

以降で、事前準備からStep10までをご紹介します。

２.事前準備：プロジェクトのインポート

チュートリアルの実行領域となるプロジェクトをご自身のCloud Pak for Data as a Serviceの環境にインポートします。

IBMIDを使用して、次の URL から、Cloud Pak for Data as a Service にログインします。
- https://dataplatform.cloud.ibm.com/home?context=cpdaas

IBM Cloud Pak as a Serviceの環境をプロビジョニングしていない場合は、こちらを参照して、IBM Cloud Pak for Data as a Serviceをプロビジョニングし、サービスカタログからDataStageを選択し、DataStageを追加サービスとしてプロビジョニングします。

ログインできたら、左上の「例で学習」の下部分の「ガイド付きチュートリアルの実行」をクリックします。

Gallery の画面が表示されます。検索ウィンドウに「Multicloud」を入力して検索します。結果として表示される「Multicloud Data Integration」をクリックします。

「プロジェクトの作成」をクリックします。インポート作業が始まります。

プロジェクトの作成画面が表示されます。名前に適切なプロジェクト名を入力します。（既に同じCloud Pak for Data環境上に存在するプロジェクト名を入力するとエラーとなるので、その場合は異なるプロジェクト名を入力してください。）「作成」をクリックします。

プロジェクトが作成されます。「新規プロジェクトの表示」をクリックします。作成された Multicloud Data Integration プロジェクトが表示されます。

事前準備は以上です。

３-１. Step 1: Run an existing DataStage flow

DataStageフローを実行し、住宅ローン申込者と住宅ローン申請者のデータセットを結合するCSVファイルをプロジェクトに作成します。

Multicloud Data Integration プロジェクトから、「資産」タブをクリックして、プロジェクト内のすべての資産を確認します。

[フロー] > [DataStage]フローをクリックします。DataStageフローが表示されない場合は、サービスインスタンスの表示に戻り、DataStageインスタンスが正常にプロビジョニングされたことを確認します。

Multicloud Data Integrationフローを開きます。このフローでは、Db2 Warehouseに格納されているMortgage ApplicantsテーブルとMortgage Applicationsテーブルを結合し、カリフォルニア州のレコードにフィルタリングし、出力としてCSV形式の逐次ファイルを作成します。

MORTGAGE_APPLICATIONS_1ノードをダブルクリックして、設定を表示します。[プロパティ] セクションを展開します。下にスクロールし、[データのプレビュー] をクリックします。このデータセットには、住宅ローン申請に関する情報の取り込みが含まれています。[閉じる］をクリックします。

MORTGAGE_APPLICANTS_1 ノードをダブルクリックして、設定を表示します。[プロパティ] セクションを展開します。下にスクロールし、[データのプレビュー] をクリックします。このデータセットには、ローンを申し込んだ住宅ローン申請者に関する情報が含まれています。[閉じる] をクリックします。