SPSS Modeler ヒモトク

Modelerデータ加工Tips#14-条件付きレコード結合で売り手と買い手のマッチング

2021年08月03日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

みなさま、こんにちは。メルカリの松本です。私がSPSS Modelerに出会ったのは約20年ほど前です。これまで他のソフトも並行して使ってきましたが、SPSS Modelerは使えば使うほど、その良さに気づかされます。人を惹きつけて止まないデータ分析界のテーマパークのようです。

最近では、R、Pythonと言った製品を使う人も多いですよね。独断と偏見で、それぞれの良さを整理すると、

[RやPythonの良いところ]

・RやPythonのエンジニアの人口は多い。

・コードの共有やレビューなどを行うことが容易。

・LightGBM、階層ベイズ、状態空間モデルなど利用できるモデルの豊富さは、RやPythonの方が優位。

[SPSS Modelerの良いところ]

・データの入出力と加工に関する全体像を視覚的に確認しやすい。

・SPSS Modelerのインターフェースは「データを取得、加工し、モデルを作成して予測」という流れに特化されているため、基本的な作業に関する学習コストは低い。

・取り急ぎのモデルを作るプロトタイピングの過程は非常に早く、またこれに手を加えて改善していくことも容易。

最近のSPSS Modelerは、RやPythonを呼び出して使うことも可能なので、マーケティングの担当者からデータサイエンティストまで幅広く扱えるソフトとなっています。分析のプラットフォームとして使用し、必要に応じて高度な分析をすることも可能です。バージョンアップするたびに、いつも驚きの機能が追加されるので、その時期になると今回は、何が実装されるのかいつもワクワクしています。

SPSS Modelerの良さは５年前にこのヒモトクブログで取り上げてもらいました。ぜひご覧ください

https://www.ibm.com/blogs/solutions/jp-ja/spss-modeler-userstory2/

さて、私は前職リクルートライフスタイルからマッチングを生業にしていることもあり、カスタマとクライアントのマッチングを取り上げようと思います。今回は、わかりやすさを優先してお部屋を探すお客様の要望と物件情報から、条件結合する例をテーマにしようと考えています。カスタマとクライアントの両方の立場を考えて、どのようなマッチングが良いのか一緒に考えていただければ幸いです。

例題１：「お客様と物件をマッチングする」

出題は以下の通りでした。お客様①と物件②を３つの条件を満たしてマッチングします。

例題データ

利用する２つのデータはこちらです。

https://raw.githubusercontent.com/yoichiro0903n/blue/main/matching1_1.csv

https://raw.githubusercontent.com/yoichiro0903n/blue/main/matiching1_2.csv

（リンクを右クリックして「リンク先を保存」またはブラウザで開いてからページを保存します）

①でレコード結合を行う際にレコードの総当たり（N対N結合）をします。

あとは②③④で３つの条件にフラグを立てると、以下のテーブルになります。

条件はそれぞれ次の通り

希望予算上限 +　9000 >= 価格
希望予算上限 -　15000 　<= 価格
希望する部屋数　　　　 <= 部屋数

この時点でテーブル出力するとこうなります。お客様３名に６つの物件を総当たりしているので18レコードあります。分かり易いように３つの条件をクリアすると赤字になるようにテーブルノードで設定しています。

価格条件 = 1 and 価格条件2 = 1 and 部屋数条件 = 1

最後に⑤で先の赤文字に表示させる条件で抽出すると完成です。（フィールド順序は修正しています。）

これまでの処理は、条件が今後変化するときは、プロセスが個別に切り出されていて良いのですが、少し長いですよね。レコード結合の「条件つき結合」で一度で完結する方法を紹介します。

まず、レコード結合ノードにデータを接続します。この時リンクを接続する順番に注意です。matching1_1.csvから先に接続してください。ノード内でもテーブル順序をタグで設定できますが、先につなげたテーブルが主になると意識しておくとミスが減ります。

続いてaの通り、レコード結合方法を「条件」に、bで条件を記述します。cとdで主テーブルの確定をします。

もしテーブルの順序を間違えると以下のようになり、顧客に提案されない物件が登場します。

結合のタイプを踏まえれば何ということはないと思います。

正しく設定できていると、以下の４レコードが表示されるはずです。（フィールド順序は修正しています）

今回はビジネスルールを用いたマッチングの例でしたが、他にも様々な方法を組み合わせて実装します。例えば「渋谷エリア」を希望されるお客様になるべく選択肢を用意するため、隣り合った「新宿エリア」をカバーできるようにマスタテーブルを作っておく方法は有名です。またデータサイエンティストの皆様でしたら、過去の成約実績を機械学習させてスコアリングさせる方法もここ数年で発達しています。

マッチングでは、一度提案して検討いただいたものは次回から提案をしないように配慮します。これは商品レコメンデーションの際に、購入品はリストから外して意図的にクロスセルを促す場合も同じテクニックが要求されます。

例題２ではそのプロセスをテーマにしました。