SPSS Modeler ヒモトク

データ分析者達の教訓 #13- 基礎統計量と可視化にかけた時間が予測モデルの値打ちを上げる

記事をシェアする:

 

皆さんこんにちは。IBM Data&AIでデータサイエンスTech Salesをしている斉藤明日香です。

昨年2023年のこちらのシリーズが非常に好評だったためシーズン2突入となりました。

このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で忘れられない教訓をインタビュー形式で伺い、これからデータ分析に取り組む皆様に参考にしていただくことを目的にしています。

 

今回インタビューをお願いしたデータ分析者は

今回はデータサイエンティスト協会の活動で私たちのチームが大変お世話になっているトランス・コスモスの濱田様にインタビューをお願いしました。指ハートのポーズとピンクのシャツが絵になっています!

 

 

 

濱田 充男様

トランス・コスモス株式会社
情報システム本部
TCIPF推進統括部新規事業技術支援部

 

 

-日頃のデータ活用業務について教えてください

現在は、主に自然言語処理をサービスに適用するため、深層学習モデルの試作などを行っています。

これまで

  • 強化学習によるアノテーションモデル
  • 特許文書のカテゴリー分類モデル
  • 特許文書に特化した日英・英日翻訳モデル
  • 特定文書のラベル推定モデル

などを作ってきました。

加えて社内向けに、統計学、Scikit-learnを使ったデータの可視化、複数の機械学習モデルなどの研修の講師を担当しています。

また、2018年からはデータサイエンティスト協会の企画委員会に参加。人狼知能ハッカソンのサポートや2020年に発足した課題解決型人材育成WGでメンターを務めています。

 

 

-データ活用業務で味わった苦い経験を教えてください

1つめはトランス・コスモスの主要業務であるコールセンターのコールログを利用した際の経験です。基本的に会話データのため音声認識でテキストデータに変換しますが、音声認識の精度があまり良くないため、意味不明のテキストになっていることも多く、結局利用可能なデータにするための編集に膨大な時間がかかり、また作成したモデルの精度もさほど高くならないため、実用的ではなかったということがありました。技術の向上により精度も高まると思われ、もう一度チャレンジしたい領域ではあります。

2つめは、データサイエンティスト協会の「課題解決コンテスト」に、メンターとして参加したこの4年間の経験です。苦い経験というより少し不安に思っていることです。参加者が手を動かさずに、コンサルタント気分で話を始めてしまったり、逆に手を動かしたと思えば、どのようなモデルでどのような精度が達成できるかということに執着するというどちらかのパターンが多いことです。

まずは、基本的な統計量を把握するとか、いろいろなグラフを作成して数値を可視化するとか、そういう基本的なことが軽視されている気がしています。

 

 

-その苦い経験から得られた教訓はなんでしょうか

課題解決コンテストにおいては、とにかくまずはデータを客観的に見られるように、基本統計量、ピボットテーブルの作成、各種グラフの作成などを行わせることを徹底したいと思っています。

そして、基本の技術を徹底して身に着けていただいた上でのビジネススキルの向上です。顧客の課題を発見するにも、基本的なアプローチ方法があります。これらをしっかり身に着けていただくことをしっかりとサポートして行きたいと思います。大谷選手のような一流のアスリートほど、体のメンテナンス、ウォーミングアップをしっかり行います。そういうことを常に意識していただくようにするということでしょう。

 

 

-これからのデータ活用領域でのチャレンジについて教えてください

ChatGPTの登場以来、さまざまな大規模言語モデルが世の中を席捲しています。しかしながら、どういった企業の、どういったドメインに、どのモデルが適しているのかを客観的に判断する術がないのが実情です。

そこで、さまざまな企業のさまざまなサービスをお手伝いしているトランス・コスモスが、お客様からデータをお預かりし、大規模言語モデルの評価を行い、お客様にふさわしい大規模言語モデルを判定するということを行って行きたいと考えています。ただ、お客様としても社内のデータを大規模言語モデルにアップロードすることは躊躇されるケースも多く、その辺りが課題になって来そうです。

 

インタビューのお礼と感想

濱田様、非常に興味深いお話をいただきありがとうございます。

さて皆様、いかがでしたでしょうか?

SPSSにはAutoモデリング機能があるため、データを入手するとすぐに予測モデル作成に取り掛かる方が一定数いらっしゃいます。ですが濱田様がご指摘の通り何度もデータの基本統計量や分布を確認する作業を踏まないと、実装に耐えない的外れなものや、データの特異性を考慮できないモデルを作るリスクが生まれます。

一度はこれで痛い目に合わないと、理解できない厄介な罠ではありますが(笑)、改めて基本の大事さについて考えていただければ幸いです。

次回は日立ソリューションズ東日本の澤田様に「データから導かれる”あたりまえ”を丁寧に見つめ直す」を伺います。

 

→SPSS Modelerの詳細についてはこちら

→これまでのSPSS Modelerブログ連載のバックナンバーはこちらから

→SPSS Modelerノードリファレンス(機能解説)はこちらから

→ SPSS Modeler 逆引きストリーム集(データ加工)

 

 

斉藤 明日香

日本アイ・ビー・エム株式会社
テクノロジー事業本部 watsonx事業部
Data & AI 第一テクニカルセールス
  

 

 

 

More SPSS Modeler ヒモトク stories

データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む


Women in Data Science Tokyo @ IBM 2024 開催レポート

Data Science and AI, IBM Data and AI

こんにちは。IBM西戸です。 今年で5回目のWomen in Data Science (WiDS) Tokyo @ IBM が2024年6月14日に初の会場とオンラインのハイブリッド開催されました。会場は2024年2月 ...続きを読む


法務・AIリスクのスペシャリスト三保友賀が語る「ダイバーシティー」 | インサイド・PwDA+7(後編)

Data Science and AI, IBM Sustainability Software

日本IBMにて法務、特にAI倫理・リスクのスペシャリストとして、そして同時にLGBTQ+コミュニティー*1やPwDAコミュニティー*2のアライとして積極的に活動している三保友賀さんにお話を伺いました。 前編での法務・AI ...続きを読む