SPSS Modeler ヒモトク

Modelerデータ加工Tips#10-時系列データを加工して95％予測上限と下限を求める

2021年06月07日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

みなさんこんにちは。東京ガス株式会社の笹谷と申します。

弊社は、海外から液化天然ガス（LNG）を輸入し、LNG基地で都市ガスを製造、パイプラインを通して都市ガスを供給し、家庭用・業務用・工業用等のお客さまに販売する「都市ガス事業」を中心に、「電力事業」や「海外事業」、「エネルギー関連事業」などを展開しているエネルギー企業です。

私の所属するデジタルイノベーション戦略部データ活用統括グループでは、これら一連の事業活動に対してデータやアナリティクスを活用することによる業務改革や新たな価値創出に取り組んでいます。

私がSPSS Modelerを使い始めたのは2014年ごろでした。それまで当社では、SPSS Statisticsなどの統計解析ツールなどを用いてデータ分析を行っていましたが、いわゆる「ビッグデータ」ブームの到来と共に、扱うデータ量・種別が拡大しデータ加工の負担が大きくなってきたこと、データ分析に携わる人が増える中で培ってきた分析のプロセス・ノウハウを蓄積する必要があることから、SPSS Modelerの導入を決めました。以来、複雑なデータ加工もわかりやすく管理でき、過去の分析資産が蓄積されるSPSS Modelerは業務に欠かせない存在になっています。

業務においてSPSSを用いる良くある場面の一つが、需要予測や売上予測、故障発生件数予測など、様々な「予測」です。このTipsではそんな予測の過程で役に立つ、データ加工と予測区間算出に関してご紹介します。

例題１：「予実管理テーブルを分析用に加工する」

元データと完成イメージです。業務で用いられる予算と実績の管理シートは、見やすさを優先していて、予測などに利用しようとすると結構大変ですよね。例として以下のような行列を分析用テーブルに変換してみます。

利用するデータはこちらです。

https://github.com/yoichiro0903n/blue/blob/main/forecast_before.csv

（リンクを右クリックして「リンク先を保存」またはブラウザで開いてからページを保存します）

本題からそれるのですが、出題イメージの元データをよく見ると実績が赤字になっているのに気づきましたでしょうか？テーブル表示する際には、一般的には何も設定なく実行すると思うのですが、設定タブで条件を指定していると、該当レコードが赤字で強調表示されます。

では解答例です。出題時にお勧めしなかった行列入替を用いる方法から。データにヌル値が含まれていなければ①と⑦が不要になり最有力の手筋となるはずです。

行列入替ノードはModelerバージョン18.2.2（ブログ執筆時点）ではヌルを受け取ると適切に処理しない仕様になっています。Tips#04でも、ウエスタン・デジタル小杉さんが行列入替ノードの気難しさに触れていますよね。仕方がないので①のようにヌルをゼロに置き替えます。

次に②で行列入替ノードを利用します。行列入替方法と索引、値を設定します。

この時点で以下のようなテーブル構造になります。あとは予測と実績を列に展開すればOKですので、③データ型ノードで「値の読み込み」ボタンで型を認識させた上で④再構成の出番です。

④再構成の設定は以下の通りです。予測フィールドと実績フィールドにvalueを埋めます。

あとは再構成後の不要レコードの処理をレコード集計⑤で行い、ソート⑥します。推しノード#04でIBMの河田さんが触れている通りデータ型から再構成、そしてレコード集計はModelerの定跡（じょうせき）と言えます。

最後⑦は①で便宜的にゼロにしたヌルの２箇所を復元します。ヌルにするときの関数はundefです。

ここからは５手詰めの最短手筋です。ユーザー入力ノードを使います。このヒモトクTipsでは架空のサンプルデータを作る際に利用されていますし、推しノード#02でIBM西牧さんがシミュレーションの利用用途を示されていますが、暦情報の用意にも応用できます。

まず、ユーザー入力ノード①を次のように設定します。

この時点で対象にしているデータは以下の通りです。14レコードの本来のデータと、たった今作られた４レコード１フィールドのデータです。

２つのテーブルを結合キー方式にしながら結合キーなしで、レコード結合②します。

14レコードに四半期４レコードが14対４で結合し56レコードの全ての組み合わせが作られました。

③と④ではそれぞれ該当する予測フィールドと実績フィールドをif thenの条件によって作成します。

出来上がるとこうなります。

あとは⑤レコード集計で該当レコードが残るように要約します。

例題２：「95％予測上限と下限を求める」

将来の予測を幅で見込めると、在庫リスクや機会ロス減少につながると推しノード#14でも解説されています。実はModelerの「時系列ノード」は95%の予測上限と下限を自動で算出できますが、それ以外の機械学習アルゴリズムでトレンド予測した場合にはでません。そこで例題１で出来上がったデータから95％の予測区間の自作にチャレンジします。