SPSS Modeler ヒモトク
「実践!異常検知と故障予測」ユーザー著者4名が座談会でデータ活用の課題を紐解く
2022年05月31日
カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス
記事をシェアする:
2022年5月東京図書より
「実践! 異常検知と故障予測 IBM SPSS ModelerによるIoT時系列データ活用」
が刊行されました。
目次と筆者
第0章 基本的な使い方 (IBM 牧野泰江)
第1章 異常を検知する (JR東日本 堀恵治)
第2章 故障を予測する (JALエンジニアリング 竹村玄)
第3章 需要を予測する (IBM 西牧洋一郎)
第4章 時系列データを理解しデータから新たな価値を発見する
(産総研 本田智則)
第5章 位置情報データを活用する(HONDA 小川努)
第6章 予測モデルを業務で運用する(IBM 河田大)
SPSS Modeler書籍の第2弾となるこの本はSPSSユーザーが執筆に参加したことも話題となりました。
(第1弾「実践 IBM SPSS Modeler 〜顧客価値を引き上げるアナリティクス」はこちら)
今回はユーザー著者4名に書籍について、そのきっかけになったSPSS Modelerについて、さらにデータ活用の課題について意見交換をいただきました。
小川 努 様
Honda Innovation Tokyo Akasaka
事業開発本部
ソフトウェアデファインドモビリティ開発統括部
UX・データソリューション部
チーフエンジニア
(小川様)
最近の課題だと感じているのは、現場から求められる自動化です。例えばマーケティングオートメーションができないか?と相談を受けることが増えました。
それに真摯に向き合うと、気付かされるのは私たちが行うデータ分析は業務展開(デプロイ)しておわりではないということ。世の中の軸は刻々と変化してしまう。それに応じてモデルは更新するべきではあるのですが一足飛びに自動化するのは危険。ある程度モデルを修正する根拠は必要だと考えていますし、SPSSはそれができると期待しています。
もちろんPythonやRは必要なツールです。しかし書いた本人が即座に判読できない場合も多い。予測をAutomationして維持運用しようと思えば、モデルを変更する誤差と根拠に責任持つ必要があります。加えて特徴量を含む過去の資産を、SPSSなどの可読性の高いツールを通じて人が理解するべきなのだと思っています。
書籍に関しては予定原稿の3倍も気付けば書いてしまいましたが、位置情報データは果てしなく加工ができるため、現場でどのように利用するのか、実際の利用シーンをイメージしないとキリがない(笑)。その割り切りのコツが伝わると良いと思っています。車の運転をサイエンスする入り口ではありますが、そこに辿り着けば道は開けると信じています。
本田 智則 様
国立研究開発法人産業技術総合研究所
ゼロエミッション国際共同研究センター(GZR)
環境・社会評価研究チーム
(本田様)
私も小川さんと同じで、今回の書籍では特徴量作成に集中しました。
大規模センシングデータから価値を見つけようと思うと「クセの強い時系列データ独特の前処理」から避けて通れませんし、少しでも効率化するための「チューニング」も必要に。
書籍ではチューニングまで及ばなかったのですが、私が学生に最初に身につけてもらうデータ加工はなるべく盛り込むように工夫しました。
本当はSPSSの伝家の宝刀@オフセットを分析処理速度向上のためにいかに封印して代替え手法を編み出すかがもっぱらの楽しみ?で、イベントなど何かの機会にユーザーに共有したいと思っています。
皆さんより少し章のタイトルが長いとツッコミをいただきますが、その長いタイトルに執筆に至った思いを込めました。
堀さんもかなり大規模なデータを扱われていますがどのように対処しているのですか?
堀 恵治 様
東日本旅客鉄道株式会社
JR 東日本研究開発センター
テクニカルセンター
車両グループ
(堀様)
実は永遠にデータを貯めることはできないので、生データは「必要な形に変えて」その後は捨ててしまいます。何をどう残して、捨てられるのかが重要なポイントだと考えています。
皆さんもそうだと思うのですが99パーセントのデータは役に立ちません。
取り組みを始めた当初、異常検知をさせるのにどのように前処理をするべきなのか調べたのですが、なかなかそれを的確に教えてくれるものが見つけられず苦労しました。
例えばPythonで本田先生が先ほど引き合いに出された「@オフセット」をしようと思うと大変な労力がかかります。確実に成果を上げるためには特徴量の設計が鍵を握っており、それを効率よく行うのにSPSSは不可欠になっています。
当初、こんな風に苦労しているのは自分達だけなのかと考えていて、大変ニッチな世界でもがいているのだと諦めていました。そんな時、竹村さん達とユーザーイベントで直接お話をして、実はそうでもないときづきました。さらに小川さんや多くのユーザーさんと議論する中で「かつての自分に教える本」があると良いと思うようにもなりました。
竹村 玄 様
株式会社 JAL エンジニアリング
技術部 システム技術室
信頼性管理グループ
(竹村様)
堀さんに質問ですが、
捨てているデータに「何か本当は取り置く必要があったのでは?」と不安になったりしませんか?
(堀様)
それは考えないようにしています。
(一同)
爆笑
(堀様)
いざとなると元データは保管してありますので、復元もできないわけではありません、しかしコストとの関係もあるので、もう諦めも肝心かと。
(小川様)
捨てる勇気必要ですよね。
ある時、車の24時間のデータを捌くのに24時間かかるようになった。
リアルタイムでやりたがるが、クルマをとめて直せないのにいたずらにデータとりたがるのは、実はあまり意味がない。
かといってデータをとらなくてよいとは断言できず・・・難しい。
(本田様)
未来に2度と同じことがおこらない要因(自然災害)で生じる異常や故障はどう検知していますか?
(堀様)
正常を学んで、そこからの乖離を検知するしかないと考えています。
(竹村様)
部品は機材に取りつけられてから時間の経過とともにその健全性が劣化していくと仮定した上で、「健全な状態」を定義してそれに従って、故障に至る前の状態を予測をしています。
「どんな状態のものをどれくらい前に検知すべきなのか」など、あらかじめ念入りな分析設計が必要なのだと取り組みを通じて学びました。
こういった分析テクニックの前の段階の重要性を書籍に残したくて、色々思案しているうちに堀さんが期日前に原稿を仕上げられ、そこからはプレッシャーとの戦いでした(笑)。出来上がって本の実物に触れると感慨深いですね。
→これまでのSPSS Modeler ブログ連載のバックナンバーはこちらから
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む
【予約開始】「SPSS秋のユーザーイベント2024」が11月27日にオンサイト開催
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
本年6月800名を超える方々にオンライン参加いただいたSPSS春のユーザーイベントに続き、『秋のSPSSユーザーイベント』を11月27日に雅叙園東京ホテルにて現地開催する運びとなりました。 このイベントは ...続きを読む