SPSS Modeler ヒモトク

データ分析者達の教訓 #11- テスト段階で油断せず運用を見据えたした予測モデル開発を

2023年11月08日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

皆さん、こんにちはIBMでSPSSを中心にデータサイエンスソフトウェアの技術を担当している西牧です。

このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で忘れられない教訓をインタビュー形式で伺い、これからデータ分析に取り組む皆様に参考にしていただくことを目的にしています。

今回インタビューをお願いしたデータ分析者は

今回のインタビュー対象はネイチャーインサイトの中野様です。

中野様とはデータサイエンティスト協会で４年間、課題解決型人材育成コンテストの運営を通じてご一緒させていただいています。そこで中野様がもつデータ分析基盤運用のスキルや、プロジェクトの進め方のアドバイスが参加者から大変好評で、ぜひこのブログで、第一線で活躍するプロのコンサルタントとしての教訓を教えて欲しいとお願いをして実現いたしました。

中野雄介様

ネイチャーインサイト株式会社
コンサルティングサービス部部長

-日頃のデータ活用業務について教えてください

私はネイチャーインサイト株式会社のコンサルティングサービス部に所属しており、銀行、保険、製薬業界などのお客様にデータサイエンスによる課題解決の支援をしています。

最近ではお客様が自前で構築された機械学習モデルの推論・モニタリング・再学習など、実装・運用（MLOps）の推進をお手伝いすることが多くなっています。

-データ活用業務で味わった苦い経験を教えてください

銀行にて個人ローンのダイレクトメールを送付する対象者を効率的に選定するために、個人ローンの申込者を予測するモデルを構築した時のことです。

予測精度の高いモデル構築ができ、私もお客様も成果を期待してダイレクトメールの運用を実施しました。運用のための推論コードも私が開発したのですが、モデル構築段階でトレーニングデータ作成プログラムは全く汎用性のないものになっており、使い回しできるコードが非常に少ない状態でした。

しかもコード内にはコメントを残しておらず、開発者である自分ですら処理の内容理解に時間がかかってしまいました。結局推論コードはイチから開発し直し、想定以上の工数がかかってしまいました。

運用に間に合わせるために焦った結果、バグが頻発し、運用にさらなる遅れが生じました。中には特徴量の作成過程におけるバグが運用後に発覚したものもあり、ダイレクトメールの成果は期待に届きませんでした。

その後は運用改善の結果、大きな成果を挙げることができました。しかしながら、お客様に御迷惑をおかけしたと共に、ソフトウェア・エンジニアリングスキルの必要性を痛感した経験でもありました。

-その苦い経験から得られた教訓はなんでしょうか

先の経験を通じ、昨今のMLOpsの枠組みで語られる点の重要性を痛感しました。

以来、保守性・メンテナンス性・可読性の高いコーディングを心がけています。またモデル構築段階である程度モジュール化し、テスト駆動開発を行うようになりました。

さらに、機械学習プロジェクトの初期段階でコーティング規約の策定、モジュール化や単体テストフレームワークなどソフトウェア・エンジニアリングのトレーニング、実験管理ツールを使ったトラッキングや実験テンプレートの作成などの整備を進めています。

-これからのデータ活用領域でのチャレンジについて教えてください

近年ではデータサイエンスの教育も充実してきており、データサイエンティストを自社内に抱えている事業会社も増えてきています。一方でビジネス課題をデータサイエンス課題に変換できる人材や、構築した機械学習モデルをプロダクションできる人材が不足しており、そうした人材を育てるリソースも、データサイエンスと比較して少ないのが現状です。

せっかく構築された機械学習モデルが使われない、という悲しい事例を増やさないよう、MLOpsのサイクルを一気通貫でサポートできる体制の確立や、機械学習モデルのデプロイを担う機械学習エンジニアの育成などに注力したいと考えております。

また、個人としてはデータドリブンな業務改善コンサルティングにチャレンジしていきたいと思っています。これまでのキャリアでは銀行員として営業を経験し、転職してからはデータエンジニア、データサイエンティスト、機械学習エンジニアを経験してきました。そうした経験を活かし、ビジネスの「現場」とデータ活用の両方を結び付けられるような役割ができればと考えています。

インタビューのお礼と感想

中野様、貴重なお話をありがとうございました。

皆様、いかがでしたでしょうか？

私と同じく中野様にはデータサイエンティスト協会で、お世話になっているIBMの河田が「なぜMLOpsが必要なのか」で執筆をしている通り、MLOpsは現場で必要性が問われ始めています。今回中野様のお話を聞くことで、それを意識せずに安易にテストで成績の良いモデルを実装すると大変なことが起きると理解できます。

できれば我が身は苦い経験をせず、ベテランが味わった失敗を教訓にデータ活用に取り組めると（都合が良すぎでしょうか）よいですよね。

次回インタビューリレーのアンカーはリバーフィールドの磯部様による「データ分析者の孤立を防ぎ自分ごと化で成功に導く」です。お楽しみに。

→SPSS Modelerの詳細についてはこちら

→これまでのSPSS Modelerブログ連載のバックナンバーはこちらから

→SPSS Modelerノードリファレンス（機能解説）はこちらから

→ SPSS Modeler 逆引きストリーム集（データ加工）