SPSS Modeler ヒモトク

ブログで学ぶSPSS_Modeler #06- モデル作成をもっと楽に！特徴量の選択もSPSS Modelerにおまかせ

2022年06月06日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

皆様、初めまして。日立ソリューションズ東日本の南雲と申します。

SPSS製品やCognosなどを活用してデータサイエンティストとしてお客様の課題解決に向けた支援をしています。

・日立ソリューションズ東日本データ分析ソリューション

https://www.hitachi-solutions-east.co.jp/products/dataanalytics/

・日立ソリューションズ東日本予兆検知ソリューション（製造データ分析）

https://www.hitachi-solutions-east.co.jp/products/sign/

「私の推しノード」から続くこのリレー連載本当にいいですよね。

SPSS Modeler使い始めてもう10年になりますが、まだまだ使ったことない機能が沢山あり、よく「そんな機能もあったの・・？」と、ブログを読んではのけぞります。

まさか、自分が執筆する立場になるとは思いませんでしたが、皆様に喜んでいただけるよう張り切って解説します。

さて今回はIBM河田さんよりバトンを受けまして、SPSS Modelerの「特徴量選択ノード」を紹介いたします。

「特徴量」とは、結果を予測する為に必要な情報のことで、「説明変数」またはSPSS Modelerの「入力フィールド」と同義と考えていただければ幸いです。

特徴量選択ノードはModeler上では「モデル作成」タブに入っていますが、個人的にはデータの前処理作業の一環として扱っています。

手間がかかる作業を楽にしてくれる非常に嬉しい機能ですので、使ったことがない方はこの機会に是非お試しください。

特徴量選択ノードはこんなご経験のある方におススメ！

欠損値割合の高いフィールド、カテゴリに偏りがあるフィールドなどに対するスクリーニングが手間
関連するデータを集めたら、特徴量候補のフィールドが大量に出来てしまった
知識の乏しい業務についてモデル作成を依頼され、どのフィールドが重要か判断し辛い
まずは一度、短時間で少しでも良いモデル作成したい

SPSS Modelerに限らず、これまでに予測モデルを構築された方はこんな困り事のご経験があるかと思います。

特徴量選択ノードはこんな困り事に対して、次の処理により予測に重要な特徴量を“自動で”選択してくれるノードです。

スクリーニング
欠損値割合の高いフィールド、カテゴリに偏りがあるフィールドなどを判定
ランク付け
相関係数などから予測対象フィールドに対する重要度をランク付け
フィルタリング
1と2で重要度の低いフィールドをフィルタリングし、重要な特徴量を自動選択

※もちろん1～3のパラメータはデフォルトから変更可能です。

特にフィールドが数十以上ある場合、フィルターノードやデータ型ノードで選択するだけでも大変なのに、スクリーニングと順位付けまで自動実行してくれる優れものです。

早速、特徴量ノードの使い方を実際の操作に沿って説明していきましょう。

利用場面のイメージ

今回は、SPSS Modeler製品に同梱されているデモデータ「customer_dbase.sav」を使います。

このデータは、どうやら顧客の属性情報とプロモーションに対する応答結果のようです。

このデータ提供主から、次の依頼をされたと仮定して進めていきます。

【依頼】：顧客の属性情報とプロモーション結果から、プロモーションに反応してくれる可能性の高い顧客の傾向を分析したい。

いきなり業務知識のないデータ扱うのは難しい為、本当はデータの意味や業務に関するヒアリングなど色々したいところですが、数千件程度のデータであればとりあえずモデル作ってみることが出来るのがSPSS Modelerのいい所ですよね。

データの詳細はよく判らないですが、早速作ってみましょう。

通常のモデル作成

まずは特徴量選択ノードを利用しないでモデルを作成します。

データ型ノードで尺度やロールを設定します。

今回は予測したいフィールド[response_01]のロールを「対象」にして、不要なフィールドのロールを「なし」にします。

０ or １のフラグデータは尺度をフラグ型にしておきます。

事前に棒グラフノードでプロモーションに反応した顧客の割合も確認しましょう。

・反応あり：8.36%

今回の分析では、この数値より反応率が高い顧客の属性を見つけることが出来れば良さそうです。

バランシングして偏りを除去したり学習と検証に分ける前処理は割愛しますが、本来は必要です。

モデルは「CHAID」を利用します。数値もカテゴリも予測対象に出来て、予測結果も理解し易い為、最初のモデル作成によく利用しています。

データ型ノードに接続、実行し作成されたモデル・ナゲットを確認します。

プロモーションへの反応に関連ある項目として24のフィールドが挙げられ、

62のルールセットが作成されました。

この中からプロモーションへの反応が期待できる顧客の属性を調べるのですが、もっとシンプルなルールセットにできないか試してみましょう。

特徴量選択ノードを利用したモデル作成

ここからは特徴量選択ノードを利用してモデルを作成します。

この記事の最初でも触れましたが、特徴量選択ノードはフィールドのスクリーニング、ランク付け、フィルタリングを自動で実行してくれるので、今回の様に重要なフィールドを絞り込んだり、ルールセットをシンプルにする場合に有効です。

特徴量選択ノードにおけるスクリーニングは次の5項目で設定可能です。
私の場合、とりあえずデフォルトで実行して、結果見ながらチューニングしていくことが多いです。

欠損値の最大パーセンテージ
→欠損値割合が大きすぎるフィールドをスクリーニングします。
欠損値であることに重要な意味がある場合は、事前に欠損値をフラグやカテゴリデータに置換しておくとこのスクリーニングを回避できます。
単一カテゴリー内のレコードの最大パーセンテージ
→１つのカテゴリに偏っているフィールドをします。
例えば性別のフィールドで99%男性の場合、予測精度に寄与しない可能性が高いと考えられます。
レコードのパーセンテージとしての最大カテゴリー数
→カテゴリ数が多すぎるフィールドをスクリーニングします。
例えば顧客1000人のデータに対して、あるカテゴリのフィールドが950種類も含まれる場合、予測精度に寄与しない可能性が高いと考えられます。
最小変動係数
→変動が小さすぎるフィールドをスクリーニングします。
最小変動係数とは、入力フィールドの平均に対する入力フィールドの標準偏差割合のことで、ほぼ一定値が入力されている様なフィールドを探索してくれます。
最小標準偏差
→標準偏差が小さすぎるフィールドをスクリーニングします。
最小変動係数と類似していて、こちらも変動の小さいフィールドを探索してくれます。