SPSS Modeler ヒモトク

データ分析者達の教訓 #13- 基礎統計量と可視化にかけた時間が予測モデルの値打ちを上げる

2024年01月22日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

皆さんこんにちは。IBM Data&AIでデータサイエンスTech Salesをしている斉藤明日香です。

昨年2023年のこちらのシリーズが非常に好評だったためシーズン２突入となりました。

このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で忘れられない教訓をインタビュー形式で伺い、これからデータ分析に取り組む皆様に参考にしていただくことを目的にしています。

今回インタビューをお願いしたデータ分析者は

今回はデータサイエンティスト協会の活動で私たちのチームが大変お世話になっているトランス・コスモスの濱田様にインタビューをお願いしました。指ハートのポーズとピンクのシャツが絵になっています！

濱田充男様

トランス・コスモス株式会社
情報システム本部
TCIPF推進統括部新規事業技術支援部

-日頃のデータ活用業務について教えてください

現在は、主に自然言語処理をサービスに適用するため、深層学習モデルの試作などを行っています。

これまで

強化学習によるアノテーションモデル
特許文書のカテゴリー分類モデル
特許文書に特化した日英・英日翻訳モデル
特定文書のラベル推定モデル

などを作ってきました。

加えて社内向けに、統計学、Scikit-learnを使ったデータの可視化、複数の機械学習モデルなどの研修の講師を担当しています。

また、2018年からはデータサイエンティスト協会の企画委員会に参加。人狼知能ハッカソンのサポートや2020年に発足した課題解決型人材育成WGでメンターを務めています。

-データ活用業務で味わった苦い経験を教えてください

1つめはトランス・コスモスの主要業務であるコールセンターのコールログを利用した際の経験です。基本的に会話データのため音声認識でテキストデータに変換しますが、音声認識の精度があまり良くないため、意味不明のテキストになっていることも多く、結局利用可能なデータにするための編集に膨大な時間がかかり、また作成したモデルの精度もさほど高くならないため、実用的ではなかったということがありました。技術の向上により精度も高まると思われ、もう一度チャレンジしたい領域ではあります。

2つめは、データサイエンティスト協会の「課題解決コンテスト」に、メンターとして参加したこの4年間の経験です。苦い経験というより少し不安に思っていることです。参加者が手を動かさずに、コンサルタント気分で話を始めてしまったり、逆に手を動かしたと思えば、どのようなモデルでどのような精度が達成できるかということに執着するというどちらかのパターンが多いことです。

まずは、基本的な統計量を把握するとか、いろいろなグラフを作成して数値を可視化するとか、そういう基本的なことが軽視されている気がしています。

-その苦い経験から得られた教訓はなんでしょうか

課題解決コンテストにおいては、とにかくまずはデータを客観的に見られるように、基本統計量、ピボットテーブルの作成、各種グラフの作成などを行わせることを徹底したいと思っています。

そして、基本の技術を徹底して身に着けていただいた上でのビジネススキルの向上です。顧客の課題を発見するにも、基本的なアプローチ方法があります。これらをしっかり身に着けていただくことをしっかりとサポートして行きたいと思います。大谷選手のような一流のアスリートほど、体のメンテナンス、ウォーミングアップをしっかり行います。そういうことを常に意識していただくようにするということでしょう。

-これからのデータ活用領域でのチャレンジについて教えてください

ChatGPTの登場以来、さまざまな大規模言語モデルが世の中を席捲しています。しかしながら、どういった企業の、どういったドメインに、どのモデルが適しているのかを客観的に判断する術がないのが実情です。

そこで、さまざまな企業のさまざまなサービスをお手伝いしているトランス・コスモスが、お客様からデータをお預かりし、大規模言語モデルの評価を行い、お客様にふさわしい大規模言語モデルを判定するということを行って行きたいと考えています。ただ、お客様としても社内のデータを大規模言語モデルにアップロードすることは躊躇されるケースも多く、その辺りが課題になって来そうです。