SPSS Modeler ヒモトク
気象変動による需要の変化を予測してマーケティング企画に活かす
2016年12月11日
カテゴリー SPSS Modeler ヒモトク | アナリティクス
記事をシェアする:
Everyday, data
某広告代理店でデータ関連のお仕事をしている人のメモ
データ人間あるある:データのお仕事をしているとすべての線がグラフに見えてくる(職業病)
わたしはとある広告代理店で「データ」に関わる様々なお仕事をしています。
具体的には、提案に必要なデータを探したり、アンケートの設計や集計を行ったりという昔ながらのお仕事ももちろんあるわけですが、最近ではどんな業種業態の企業であってもマーケティング活動においてROI(Return On Investment)や想定CV(コンバージョン)数などを最初からしっかりと定め、PDCAを厳密に行っていくというフローが必須となりつつあり、そちらに関わる業務が大半を占めています。
ROI等を最初から定めるためには、何かしらのマーケティングアクションを起こす前に想定されるReturn(ROIのR)がどのくらいなのかを把握しておく必要があります。これは単にクライアント企業が広告代理店に求めているだけでなく、営利目的の事業を行なっているすべての企業のマーケティング担当者が上から言われている、または経営者の方自らが意識しているものだと思います。
広告代理店に限って言うと、少し前までは、画期的なアイデアを提案してそれが面白そうである程度のImpressionが稼げるようなメディアも併用するようであればGoサインが出ていた、という時代もあったようなのですが、現在のような状況ではそれがどんなに画期的なアイデアであっても、数値的根拠がなければ全く意味がなく、突き返されてしまいます。
こういった状況のため、ありがたいことに私のようなポジションが重宝されるようになっているわけですが、重宝して下さっているのはまだ一部の意識の高い方のみであり、マーケティングプランの立案にあたり数値を予測しておくことの重要性が社内外含め十分浸透していない感もあります。そこで、社内の啓蒙用として予測分析の有効性の例を説明した資料をブログ向けに一部改変して公開してみます。
資料の前提
サンプルの舞台として取り上げたのは「京都のパン屋さん」です。なぜそうしたかというと、
- パン屋さんは誰にとっても身近な存在であり分かりやすそう
- 私がたまたまその時パンに関わるお仕事をやっていた
- 日本では京都市がパンの消費量と消費金額が全国No.1である
という3点からです。参考までに、3つ目だけ参考情報を示しておきます。
図1パンの消費量 都道府県庁所在市及び政令指定都市ランキング
出典:総務省統計局http://www.stat.go.jp/data/kakei/5.htm
家計調査(二人以上の世帯)品目別都道府県庁所在市及び政令指定都市ランキング(平成25年(2013年)~27年(2015年)平均)より作成
2位以下の前後の差を比較すると、ダントツ感が出ている事がお分かりいただけるでしょうか。
また、京都市内に限ってパンを「食パン」「他のパン」で区分して支出金額を見てみると、食パンが数ヶ月に渡ってほとんど大きな変動がないのに対し、「他のパン」は月や年により大きく変動しています。そのため、「他のパン」の支出金額は何かしらの要因により上下が発生していることが考えられます。
図2 京都におけるパン支出金額の推移(2013.8~2016.7、月別)
(出典:総務省統計局 家計調査 http://www.stat.go.jp/data/kakei/5.htm より2013/8~2016/7の京都市のデータを抽出して作成)
この「他のパン」の支出金額の数字と、わかりやすさという視点からプラス「気象」のデータを使って、食パン以外のパンの支出金額(≒需要)の予測を行い、そこから提案の方向性をいくつか出すという例をつくってみました。
予測の考え方
このサンプルでは予測を行うにあたり、気象庁のサイトで公開されている気象データ[1]16年7ヶ月分と、総務省統計局のサイトで公開されている家計調査[2]3年分のデータを用いて、SPSS Modeler(詳細は後述。)上で結合させたデータをクラスタリングするという方法で進めました。通常、「需要予測」というと時系列データを用いて移動平均などを計算していきますが、今回は「時系列」や「季節」の観点を一旦排除し、あくまでも「気象」のデータのみで見るというアプローチで進めるため、シンプルにクラスター分析を中心に行っています。ここでどのような気象の時に最も需要(≒支出金額)が高くなるのかを把握することで、今後天候に応じた需要の変化に対応できるようになるというわけです。
分析結果
時間のない現代人の皆さんのためにいきなり結論を出してしまいますが、気象データと家計調査でデータを結合させて実行したクラスター分析の結果と、ここから考えられるマーケティングプランを以下に簡単にまとめます。
<パン消費金額が増える気候>
上記に当てはまる月が、人々がもっともパンに魅力を感じ、金額に投じてくれるタイミングであることがわかりました。詳細データを見ると4月はほぼ必ずこのクラスターに含まれるため、少なくとも4月頃のプロモーションに関しては上記に基づく施策の提案ができそうです。
なお、クラスタリングを行うにあたっては上記の気温データ以外に日照時間、降水量、風速などのデータも投入していますが、クラスターに与える重要度は低く、これらの要素がパンの消費金額に何らか強い影響を持つとは言えなさそうでした。
ここで注意したいのが、金額に関するデータの出典が「家計調査」である、という点です。つまり、この時季は単純に“家計が豊かになる”というわけではなく、“「毎月変わらない、限られた家計」の中で特にパンに費用が割かれる”時季、ということであり、たとえば食卓を彩る他のものもリッチに、、、という提案はあまり受け入れられない可能性があります。この場合、下記のようにプロモーション案を提案していくことになるでしょう。
- 高級化を図らずに売価を上げるための施策。具体的には;
- スーパーなどで他の食材をあまり買わずともパンだけで食事が完結するよう、さまざまな食材が摂取できるような惣菜パンやサンドイッチを充実させる。
- ひとつだけで大満足の朝ごはんやおやつタイムになるように、ボリューミーなパンを提供する。
- 1個あたりの価格を上げるのではなく、いつもよりも頻度を上げるため、日替わりパンを提供し大々的に告知するなど「通う楽しみ」をつくる。
- 一度に(個数として)たくさん買ってもらえるように、家族や仲間のみんなでパンを囲むような機会を提案する。
逆に、最もパンが売れない気象のときのプロモーション提案については、下記の分析結果とインサイトが導けました。
<パン消費金額が減る気候>
消費金額が最も多いクラスターと少ないクラスターの「他のパン」平均購入金額を比較してみると、268円の差をつけています。
食パン以外のパンで268円というと、良心的な街のパン屋さんであればあんパン2つくらい、ちょっと高めのブーランジェリーであればリッチな惣菜パン1つ分くらいの差です。1世帯あたりの月額がこの価格差なので微々たる差と感じるかもしれないですが、たとえばそのパン屋さんがカバーする世帯が1000世帯あったとしたら月々268,000円の売上差となり、いち商店としてはなかなか侮れない差額です。平均単価が少しでも高くなる条件として、気象、もっと言えば気温は影響があると言えそうです。
パンが売れない時期の仮説と施策案は以下のように考えられます。
- 気象が変わったせいでパン食を避けるようになる?
- 6月は暑くなり始めたからこそ美味しく食べられるような、爽やか系のパン(たとえば柑橘系やヨーグルト系、冷やすものなど)を早々に訴求するプロモーションを提案する。また9月も芋や栗などほっこりとした秋らしい商品ばかりに行きすぎず、季節のフルーツなどを使った“爽やか系”の新商品を訴求したほうが良いかもしれない。
- 気象が変わったせいでそもそもパン屋さんにいかなくなる?
- プレゼントが当たるキャンペーンを打ち、パン以外の魅力をプラスする。
- 夏のレジャーなど出費が嵩む時季のため、高価格帯のパンは避けられる?
- 比較的安価なパンでもたくさん買ってもらえるように、セット売りや複数買いをしてもらえるようなきっかけづくりをしてフライヤーやPOPなどで訴求する
- 一定金額以上のお買い上げでポイントやシールがたまる仕組みをつくる。
また、これは広告代理店が言及するべきところではないですが、暑さ所以ということであればさらに店頭のエアコンを少し涼しめに設定することで店舗内への誘い込みに成功するかもしれません。もちろん、焼きたてのパンがすぐに冷えない程度に。
おそらく、上記のインサイトと施策案だけの提示だけだと「うーん、これでホントにお客さん来るの?」という感じだと思います。が、前提として予測データを見せた上での提案であれば、担当者の危機感や納得感も変わってくるのではないでしょうか。さらに、先程算出したクラスターごとの平均金額を各店舗がカバーするエリア内の世帯数と掛け合わせると売上目標金額も算出できます。結果、販促にかけるべきコスト感も自ずと決まってきますので、どのようなメディアやツール、手法を使えばいいのかもおおよそ見当がついてきます。
ちなみに今回の分析は非常に手軽にできます。以下に具体的な分析方法をまとめましたので、ぜひ皆さんもオープンデータやお手持ちのデータを使って次の提案資料用の予測値を立ててみて下さい。きっと、上司やクライアントの反応が今までと違ってくると思います。
今回使用した分析ツール
今回の分析には「SPSS Modeler」を使っています。
SPSSなら聞いたことがあるけどModelerってなにか違うの?と言われることが多いので、特徴を簡単にまとめておきます。
- 巷でSPSSと言われているのは、統計解析ツール「SPSS Statistics」のことを指すことが多く、主に学術系の団体で使われている。周りの人に聞いてみたところ、大学生のときに授業で使った(全然操作方法覚えてないけど…)という大人の方も多い模様。
- 今回使うModelerは「予測分析ツール」と言われているもののひとつ。
- 既存データをもとに何かしらのモデル(複雑な計算式みたいなものですね、)を作り出すのが主な機能。そしてそのモデルを使って予測値を算出し、それを基に最適な次のアクションを決めようというもの。
- たとえばBIツールなどでも簡単な予測機能がついていたりするが、使えるアルゴリズムの数や詳しさが桁違い。
SPSS Modelerは公式サイトに30日間無料で使えるトライアルメニューがあるので、興味のある方はぜひ自分のマシンにこっそりインストールしてみてください。Modeler仲間が増えることをひそかに期待しつつ。
< /br>
本当にすごいなあと改めて思うのですが、Modelerは、クラスター分析やRFM分析、さらにはちょっと敷居が高く感じる機械学習系のアルゴリズムなども、GUIインターフェース上のオブジェクトをドラッグ&ドロップして「ストリーム」(=設計図のようなもの)を作り、入れたい情報と出したい情報をクリックで選択するだけであっという間にできてしまいます。データサイエンティスト達の定番であるR言語やPython等のプログラミング言語が分からなくても、言語自体は分かっていてもコーディングが苦手だという人でも全然OKです。
ちなみに今回の資料のために作ったModelerのストリームはこんな感じです↓
図3 今回作ったModelerのストリーム
かなりシンプルなストリームですが、今回の一連の作業はすべてこちらの画面内で完結しています。
京都市のパンの消費と気象、それぞれの概況
さて、まずは前提知識として、既に一度掲載しましたがパンの支出金額の傾向を時系列で見ておきます。総務省統計局の家計調査から月別・都市別のデータを探して、京都市の購入頻度と支出金額だけを時系列データになるようにまとめました。分かりやすくグラフ化したものが下記になります。
図4 京都におけるパン支出金額の推移
このグラフからのFindingとしては、
- パンに対する支出金額計は徐々に上がっている
- 食パン支出は大きな変化はないもののゆるやかな低下傾向にあり、他のパンの支出は伸びている
- 食パン支出よりも他のパンに対する支出のほうが2倍以上多い
- 毎年必ずこの月がこうなるという定性はないが、月次で変化の大きい「他のパン」を見ると1-2月頃に下がって、3-4月と10月に伸びる傾向はある
簡単にまとめると、京都ではパンにお金をかけるようになっていて、特に食パンよりもそれ以外のパンに対する人気が強まっている。そして春と秋に特に金額が伸びるようです。
食パンはあまり大きな変化がないという点を考慮すると、気象との関連性を見る際には「他のパン」に絞って分析を行ったほうが違いが分かりやすく出そうだということが分かります。
続いて、気象の傾向を見てみます。
というのも、単純に時系列のみで見ていくと、購入状況が月々実施されているマーケティング施策などに紐付けられがちになります。今回は、時系列的な変動を考慮せず気象のみで売上傾向を把握することを目的としているため、“気象”がどうなのか、ということをクラスタリングにより扱いやすくしてから見ていきたいと考えた次第です。
SPSS Modelerではクラスター分類をする方法がいくつかあるのですが、その中のひとつとして、「自動クラスタリング」という、自動的に一番信頼できそうな方式を選択した上でモデルを構築し、簡単に比較ができる状態に持って行ってくれる初心者にも非常に心強い機能があります。今回はこちらを使ってみました。
自動クラスタリングの結果、K-means法が一番よいという結果が出ました。具体的な結果がこちら。クラスター数も、理解するのにちょうどよい程度の5つに分類してくれました。
図5 京都の気象 クラスター分析結果(k-means)
右の円グラフを見ると、過去約16年半の京都では気象クラスター1が最も多いようです。左のマトリックス図で見ると、この気象クラスターの特徴は、最低気温&最高気温が全体の中でも低い点ですね。真冬クラスターとでも呼びましょう。この気象クラスターが全体の39%。京都は基本的に「とにかく冷え込む日」が多かったようです。
気象クラスター2は全体に占める割合が13.9%と小さめですが、最高気温25度以上になることが比較的多く、最低気温、最高気温とも全体で一番高いです。真夏クラスターとでも呼びましょうか。割合で見ると真冬クラスターよりも圧倒的に少ないんですね。
気象クラスター3は平均気温が25度以上になる日はほとんどないですが、最高気温が25度以上になることが比較的多い月です。最低気温・最高気温ともに真ん中くらいなので、初夏クラスターといった感じでしょうか。
気象クラスター4は最高気温・平均気温が25度以上になることはほとんどなく、最低気温がやや低め、最高気温はやや高めで、朝晩がちょっと肌寒い季節の変わり目クラスターという感じですね。
最後に気象クラスター5です。最高気温が25度以上になることが非常に多いですが、平均気温が25度以上になることは気象クラスター2に比べて少ないようです。真夏ではなく、夏日クラスター。という感じでしょうか。
こう見ると、比較的過ごしやすい気象クラスター4の時期は短く、あとは「とにかく寒い」か「暑い」のどちらかになるのが京都の気象の特徴といえそうです。
尚、気象クラスターの決定にあたって重要度が大きい要素は、マトリックスに表示された
- 「日最高気温25℃以上日数」
- 「日平均気温25℃以上日数」
- 「最高気温」
- 「最低気温」
であり、降雨量や風の状態など他の要素は重要度がかなり低い結果になったため入力データから外しました。ほとんど気温の条件のみで気象クラスターが決まっているということになります。
気象とパンの消費量の関連性を分析する
次に、気象とパンの関連性を見ていきます。今まで見てきたパンの消費量と気象の2つのデータを、「年月」をキーとしてSPSS Modeler上で結合させます。「データ結合ノード」というものがあるため結合作業は一瞬です。SQLなんて知らなくてもできます。
図6 月次の気温データとパンの支出金額データを結合
この結合データを使ってクラスター分析を行い、「他のパン支出金額」が大きくなる日の気象の傾向を確認します。今回は一般的な需要予測と異なり日付情報を一旦無視した形でアプローチするため、先程と同様に「自動クラスタリングノード」を使います。
図7 「自動クラスタリング」ノード 投入情報
*全体像の値が高くなるように調整しています
すると、全体像[3]は70%台後半とやや低めですが、候補と数字は出ました。
図8 「自動クラスタリング」ノード 実行結果
この中で最も全体像の値が高いK-meansの結果を見てみました。
図9 k-means 1 モデル情報
ブルーでハイライトされているのは、クラスタリングを行うにあたり重要度の高い入力項目です。ブルーの色が濃いほどクラスターに対する重要度が高くなります。つまり、ここでは先程作成した「気象クラスター」が最も強くクラスター形成に影響しているといえます。逆に、「評価フィールド」にある「他のパン支出金額」はかなり薄いブルーになっており、赤の山で示すデータの相対分布)を見ても分かる通り、実は「他のパン支出金額」の数字が極端に高くなるクラスターはないということがわかります。
その中でも比較的高い金額帯に向かって右肩上がりになっている「クラスター3」の情報を見てみます。
図10 クラスター3の取る範囲
各項目で示されている黒枠の長方形2つは、四分位数(データ全体の25%値、中央値、75%値)を示し、水色の細い線は選択したクラスターが取る範囲を示しています。これを各クラスターで比較してみると、「他のパン支出金額」に関してはクラスター3が最も分布が高い方に寄っている状況でした。
つまり、クラスター3の気象条件が揃った場合、今後も同様に金額が高くなることが見込めると考えられます。
また、もうひとつ注目したいのが、重要度が最も高いとされているのが最初に作成した気象クラスターであること。こちらは先程「最高気温・平均気温が25度以上になることはほとんどなく、最低気温がやや低め、最高気温はやや高めで、朝晩がちょっと肌寒い季節の変わり目クラスターという感じ」とまとめた気象クラスター4が適用されています。
そして、平均値を確認するビューモードでこのクラスターに属する月の「他のパン」平均購入金額を確認してみます。結果は1世帯あたり¥2592!一番少ないクラスター5に比べて268円の差をつけている、ということがここで分かります。
図11 平均値を確認するビューモード
参考までに、過去のデータから実際にこのクラスターに分類される月を探してみます。この作業はクラスター分析の結果をcsvで落としてExcelで行っています。
図12 クラスター3に属する月の情報
こちらがクラスター3に属する月の一覧です。(主要な要素のみ表示しています。)4月は必ず気象クラスター4に属しています。ただ、支出金額の内訳を見てみると2200円台となっている月もあります。必ず気象クラスター4のような月の気象のときに売上が最大化される、ではなく、高くなる確率が最も高い、という扱いがよさそうです。
逆に、他のパン支出金額の平均値が最も低いクラスター5は、気象クラスター5=「最高気温が25℃以上になることが非常に多いが、平均気温が25℃以上になることは気象クラスター2に比べて少ない。真夏ではなく、夏日クラスター。」です。暑い日がやや多い月は要注意ということになります。実際にデータを見てみたところ、9月と6月が入っていました。梅雨時と残暑が厳しい時期はパンにかける金額が低くなる傾向がありそうです。
図13 クラスター5に属する月の情報
以上が分析のディテールになります。記事上部の図説は、これらの分析結果を元に気象と売上の関係性がひと目で分かるように作成しました。
ご参考になれば幸いです。
[1] 気象庁のデータダウンロードサイト: http://www.data.jma.go.jp/gmd/risk/obsdl/
[2] 家計調査: http://www.stat.go.jp/data/kakei/5.html
[3] 自動クラスタリングモデルノードのモデルのランク付けの設定値「全体像」と「最小/最大」について http://www.ibm.com/support/docview.wss?uid=swg21509284
*本記事は2016年10月30日時点にはてなブログに掲載された『Everyday, data』のブログ記事を転載、製品紹介リンクなどを一部再編集したものです。
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む
【予約開始】「SPSS秋のユーザーイベント2024」が11月27日にオンサイト開催
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
本年6月800名を超える方々にオンライン参加いただいたSPSS春のユーザーイベントに続き、『秋のSPSSユーザーイベント』を11月27日に雅叙園東京ホテルにて現地開催する運びとなりました。 このイベントは ...続きを読む