SPSS Modeler ヒモトク
データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要
2024年09月24日
カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス
記事をシェアする:
皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。
このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で忘れられない教訓をインタビュー形式で伺い、これからデータ分析に取り組む皆様に参考にしていただくことを目的にしています。
今回インタビューをお願いしたデータ分析者は
「実践!異常検知と故障予測」(東京図書)の著者のお一人で、11月に秋のSPSSユーザーイベントにも登壇をいただくJR東日本の堀様です。堀様は2020年と2022年にSPSSイベントで過去2度ご講演され、自身が経験された時系列IoTデータの厄介な処理への対処法をご教示くださりました。今回は具体的なテクニックではなく、分析者として経験した苦い経験と教訓を教えていただきます。
堀 恵治 様
東日本旅客鉄道株式会社
鉄道事業本部
モビリティ・サービス部門 車両ユニット
-日頃のデータ活用業務について教えてください
鉄道車両や搭載機器の動作データに対して、有効な活用手法を考案し、実際に日々の運用に使用することで、メンテナンスの最適化や鉄道車両の品質向上に取り組んでいます。
これまで、データ分析環境の整備から始まり、実際の取得データからの特徴量の設計、機械学習手法を活用したデータ分析手法の研究等を経験してきました。取得データは、車両が加速、減速している場面など、さまざまな動作モードを含んでいる非構造のデータであるため、適切な場面や特徴量を切り出す必要があり、SPSSの@関数を分析には多用しています。
現在は、考案したデータ分析手法を日々活用する為の仕組み作りを主たる業務としています。
-データ活用業務で味わった苦い経験を教えてください
これまでの多くの苦い経験をしてきましたが、大きかったのは2点です。
1点目は、データ特性の理解無しに分析していた時期があったことです。データ分析に取り組み始めた頃は、様々な講習会を受講し、機械学習等の様々な手法を習得していました。講習会のサンプルデータでは上手く結果が出るのですが、いざ目の前の鉄道車両のデータに適用すると全く上手くいきませんでした。今振り返ると、データの理解が乏しく、適切な分析手法を選択できていなかったことが原因でありました。
2点目は、データと鉄道車両そのもの理解が不足し、機器の「特異な状況」と「異常な状態」を区別していなかったために無意味な分析を行ってしまったことです。例えば異常な状況のデータを発見する目的で、丹念にデータ分析を重ね、クラスタ分析等で特異な状況のデータを発見したのですが、そのデータは車両として特殊な状況下で制御された結果のデータであって「特異な状況」ではあるものの、「異常な状態」ではないことが判明しました。車両の実態を正しく理解しなかった結果、全く無駄なデータ分析を行ってしまっていたことになります。
-その苦い経験から得られた教訓はなんでしょうか
大きな教訓は「データ分析には、データとデータを取得する対象双方の正しい理解」が必要であるということです。特に鉄道車両のセンサー情報、いわゆるIoTデータは、物理現象や制御が根底にあり、その上で動作した状況が記録されています。このようなデータ取得の前提となる状態を正しく理解し、データ分析を進めることが成果を出す近道であると考えます。
また、この状態の理解を進める為には、車両そのものへの高い知識と経験を持つ人物と協同で進めることも有効であると考えます。このようなキーとなる人物に対して、データの有効性を如何に伝えるかがデータ活用の成否の鍵になることが、これまでも多くありました。
-これからのデータ活用領域でのチャレンジについて教えてください
「データ活用」の地位を上げていき、当たり前にデータを活用する風土の醸成が、これからのチャレンジであります。データを取得可能な車両は増加し、データを簡便に閲覧するソフトウェアの開発も完了するなど、データを活用する環境の整備は進んでいます。
データから有意な成果を上げるという意味でのデータ分析には、人の気づきがなにより重要であると考えています。これまでの成果のほとんどは、仮説検証型のデータ分析であり、この仮説を一つでも多く発意できる風土や文化を創り上げていくことが必要であると強く感じています。
インタビューのお礼と感想
堀様、お話をいただきありがとうございます。
さて皆様、いかがでしたか?
回避するべき異常な状態と、偶発的に起こり得る特異な状態はデータからだけでなく、対象がどのような場面にあったのかを理解しないと判別できないという堀さんの教訓は、データ分析に携わる人の多くが共感できるのではないでしょうか。
私もデータ活用プロジェクトに関わる際には、改めて教えていただいた教訓を肝に銘じて取り組んでいきたいと感じました。
さて次回は日本情報通信の青島様に「予測モデルはビジネスの文脈で語られ初めてインパクトを持つ」を伺います。お楽しみに。
→これまでのSPSS Modelerブログ連載のバックナンバーはこちらから
→SPSS Modelerノードリファレンス(機能解説)はこちらから
→ SPSS Modeler 逆引きストリーム集(データ加工)
宮園 英駿 Hidetoshi Miyazono
日本アイ・ビー・エム株式会社
テクノロジー事業本部 watsonx事業部
Data & AI 第三テクニカルセールス
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
【予約開始】「SPSS秋のユーザーイベント2024」が11月27日にオンサイト開催
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
本年6月800名を超える方々にオンライン参加いただいたSPSS春のユーザーイベントに続き、『秋のSPSSユーザーイベント』を11月27日に雅叙園東京ホテルにて現地開催する運びとなりました。 このイベントは ...続きを読む
Women in Data Science Tokyo @ IBM 2024 開催レポート
Data Science and AI, IBM Data and AI
こんにちは。IBM西戸です。 今年で5回目のWomen in Data Science (WiDS) Tokyo @ IBM が2024年6月14日に初の会場とオンラインのハイブリッド開催されました。会場は2024年2月 ...続きを読む