SPSS Modeler ヒモトク

Modelerデータ加工Tips#17-対数と分位化で偏りのあるデータから特徴量を作る

2021年09月06日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

皆さま、こんにちは。Tポイントジャパンでデータアナリシス企画ディビジョンのゼネラルマネージャーをしています山本卓也です。

私どもの運営するTポイントは、共通ポイントのプラットフォームを構築してから18年目を迎えております。この間に会員様は約7000万人、ポイントが貯まるアライアン企業様は200社にご愛顧頂いています。

さて、私とSPSS Modelerとの出会いは17年前に遡ります。当時、Tポイントの分析組織立ち上げに参画した際に、一番最初に採用した分析ツールがClementine（SPSS Modeler）でした。初心者でもつかえる操作感にチームで利用するのに向いていると直感したからです。

実際に、SPSS ModelerのユーザーフレンドリーなGUIによって、一定のレクチャーを受けると誰もがすぐに習得でき、先輩が作った分析資産は次々と高いレベルにアレンジされてゆきました。また、SQLの自動生成機能（SQLプッシュバック）によってSQLの経験がないメンバーも大規模で複雑なデータ処理が可能になった恩恵は計り知れません。

Tポイント事業の成長の過程で、アライアンス企業様に対してデータ分析を提供する分析官は増強されて現在50名程の分析官が在籍しています。もちろん必要に応じてPythonやRも利用するのですがSPSS Modelerが「共通言語」になって分析組織を支えているのは間違いありません。CADSの自動処理を含めて手放せない基盤になっています。

SPSS Modelerへの愛と感謝を語りだしたらキリがありませんが、これからもその進化とともに、自分もありたいと願っています。

偏ったデータから特徴量を作成する

SPSS Modelerのデータ加工は集計やデータ抽出、帳票作成などの基本的なものに役立ちますが、なんといっても予測モデルの精度を向上させる「特徴量の作成」でその威力が発揮されます。

特徴量にも、いろんな種類がありますが、このブログでもすっかりお馴染みのIBM都竹さんが次の記事「今あらためて考える特徴量エンジニアリング」で特徴量の作成をわかりやすく整理されていますので、ご本人の許可を得て掲載させていただきます。

さて、では特徴量をありったけ作れば良いかというと、時間と労力の制約上そうではないですよね。そうなると、モデルの実効性を検討しながら素早く準備できるかが、良いモデルを作るカギを握ることになります。

すでにこのデータ加工TipsブログでもTips#13の移動平均や標準偏差、Tips#15で主成分分析が紹介されてきました。この回では対数と分位化にフォーカスし、すぐにそれをセットアップできる能力を再確認したいと考えています。対数も分位化の説明も詳しくはしないのですが、たとえば、顧客の所得と売上を対数変換して、線形回帰を行うと、所得が１％伸びると売上が何％増えるか（弾力性：ｘの変化率とｙの変化率の比）を算出できます。その対象を優良顧客に絞るとどうなるかなど分析のシナリオを増やすことができます。

特徴量を素早く作る点では推しノード＃05「データの自動準備」、分位化はIBM河田さんのQiitaでも紹介されていますので、合わせてご覧ください。

例題１：「マウス操作だけで対数変換」

前回の出題は次の通りでした。

左のテーブルのValueフィールドを対数変換してみて下さい。そのとき式ビルダーからlog関数を使わずマウス操作だけで出来ますでしょうか。入力と出力の間には１ノードの１手詰めです。

例題データ

利用するデータはこちらです。

https://raw.githubusercontent.com/yoichiro0903n/blue/main/longtail.csv

（リンクを右クリックして「リンク先を保存」またはブラウザで開いてからページを保存します）

まず、次のようにストリームを作ります。①可変長ファイルノードで対象データを読み込んだら、②出力タブの変換ノードを接続して③Valueを設定。完了したら実行します。

するとValueの分布と複数の方法による変換後の分布をグラフで表示してくれます。今回は①LogNを選択します。②がLogNに切り替わったら③生成メニューでフィールド作成ノードを選択します。

平均を０、標準偏差１にするzスコアも選べますが、今回は標準化されていない変換を選択してOKボタンを押します。

ストリーム領域にスーパーノードが自動生成されます。スーパーノードは推しノード#20で説明されている通り、本来複数のノードをカプセル化したものです。

右クリックでスーパーノードをブラウズしてみます。含まれているのはフィールド作成ノードで、log(Value)が自動で作られているのがわかります。

あとはテーブルノードに繋げればストリームは完成です。実質利用したノードは１ノードです。ヒストグラムで変換前と変換後の分布も確認してみてください。

最初からlog(Value)で瞬殺なのですが、本来試行錯誤する特徴量作成に、分布を確認しながら、自動でスーパーノードを生成できる変換ノードを取り上げました。

例題２：「デシル分析のために顧客の購入金額を10分位に分類する」

出題は次の通りです。

例題１のデータを利用します。Valueフィールドを顧客ごとの購入金額だとして上位10％から下位10％まで人数が等しくなるように10のグループ分けて下さい（10分位＝デシル）。このとき最も購入金額の高い１割の顧客グループをデシル１と定義します。以下のデシルフィールドのようにIDが１の顧客はデシルが６になるように注意して下さい。入力と出力の間には２ノードが必要です（２手詰め）。