SPSS Modeler ヒモトク

身近な疑問をヒモトク#10-秒速で掘り起こす！テキストマイニングはデータが多いほど実効性が高い

2022年10月20日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

１．身近なテキストマイニング

皆さん、こんにちは。IBMの河村です。

テキストマイニングに携わるようになって、気付けば10年程経っていまして、本当に時が経つのは早いものと思いにふけってしまう今日この頃です。

さて、身近な疑問に取り組むシリーズ、今回はテキストマイニングというお題でお声がけいただきましたので、どのような記事にするか思案し過去のブログを拝見していたところAIT西村さんのリモート授業の評価の図に目が止まりました。（授業評価をテキストマイニングするなんて素晴らしい！）

https://www.ibm.com/blogs/solutions/jp-ja/life-spss-05/

このチャートは皆さんおそらくご存じのワードクラウド(またはタグクラウド)というビジュアルプレゼンテーションの一種なのです。テキストマイニングで分解した言語要素を表現するのに非常にわかりやすいため、良く使われています。昼のTVワイドショーが報道のキーワードを可視化しコメンテーターと議論のきっかけにするようになり身近(特に在宅勤務中に)なものなりましたよね。

文字が散りばめられ、確かにキャッチーで目を引くには十分です。しかしビジネス目線でテキストマイニングを考えた場合、実はこれだけでは問題解決には不十分。実際のビジネスで使われているテキストマイニングはもっと色々なアプローチを行い、様々な手法を利用します。

今回はその中の一部とはなりますが、この後の章でご紹介・解説させていただきますので、しばしお付き合いください。

２．ビジネスでのテキストマイニング

では、まずはビジネス系のデータをワードクラウドにしてみましょう。

コスメ系口コミサイトの直近1.5万件程のデータですと、こんな感じです。

一見良さそうに見えますが、業務の担当者から見ると、見慣れた当たり前のワードばかりなのではないでしょうか。

という感じで、あまりビジネス(コスト削減や価値の創出)に使える感じがしません。

データマイニングが、人間から見たら膨大な数字の集合体にしか見えない構造化データを、ツールや規則(アルゴリズム)により解析して読み解く事により、ビジネス価値を生成するのに対して、テキストマイニングは、元々人間が見慣れた文章や言葉の集合体から、気が付かなかった相関性や客観的な知見を導き出す所に価値があると言われています。

テキストマイニングを扱い始めたエンジニアがよくやる間違いとして、例えばコールセンターのログをテキストマイニングツールで分析して、「ｘｘｘはｘｘｘが使いにくい」「ｘｘｘは価格が高い」という声が見つかりました！と、それが書いてあるコールログの１文書と共に報告する事があります。

分析をしたエンジニアとしては、珍しい事象を発見したと思っても、大抵の場合、現場の方々に「そんな事は、毎日電話を受けてればなんとなくわかっている」と言われてしょんぼりしてしまったりします。

３．相関値による知見の抽出

では、実際のビジネスの現場ではどのようなテキストマイニングの使い方をしているのでしょうか。

わかりやすいように、先程のワードクラウドから入ってみます。

ワードクラウドの中から一つのキーワードを選んで掘り下げてみます。

例えば、先程のワードクラウドの中断左の方に黄色くある”肌荒れ”を掘り下げてみます。

ツールを使うとそのワードに対する関連語や問題点などが数クリックで見つかります。

このダッシュボードでは、左側に”肌荒れ”と関係の深いワード、右側に元の口コミ文書が表示されており、特定の”xxxクリーム”という製品に、肌荒れの症状が報告されていることがわかります。

別のキーワードでも同じような事をやってみると、”xxxという製品は伸びが悪い”、”xxxという製品は保湿力が物足りない”など、それぞれ、数秒(数クリック)で特定の製品の改善点が見つかります。

テキストマイニングなので、右側に見える原文をその場で確認する事により、問題の内容が正しく、各データで同じ事象に関して述べている事を簡単に確認する事が出来ます。

ここで大事なのは、選んだキーワードとの関係に対して、件数ではなく相関性に着目している所です。

わかりやすいように、上のダッシュボードの左側にある”Part of Speech(品詞)”を、件数(Count)と相関(Relevancy)で、それぞれソートした場合が下の図になります。

件数でソートして(上の図の左側)上位に来るワードは”肌”、”マスク”など、確かに”肌荒れ”との関係は強いかもしれないが、他のキーワードとも関連性は高い、いわゆるデータ集合体の中で「ありきたりな」ワードである確率が高いのです。

これがテキストマイニングで良く言われる”ノイズ”というもので、不要な情報がない(または殆どない)状態で行うデータマイニングに対して、テキストを分解した結果数多くのノイズが発生した状態で分析を始めるテキストマイニングでの課題でもあります。

これを、相関でソートすると(上の図の右側)、選んだキーワードと”のみ”関連性が高いもの、すなわち、出現件数は少ないが”肌荒れ”と特に関係の深い表現・現象や商品名などが浮かび上がってきます。ノイズは多くの場合、データ全体に存在し、特定のキーワードとの関連性が薄いため、自然に相関でソートしたリストからは消えていきます。

ここで言う”相関”については、私の尊敬する那須川博士の著書(https://www.tdupress.jp/book/b349936.html)を参照ください。

基本ロジックは、相関(相対頻度) = 対象のデータ集合に出現する割合 / 全体のデータ集合に出現する割合、となり、先の例では、”チクチク”や”xxxクリーム”などが、”肌荒れ”で絞り込んだ集合体にどれだけ集中しているかの値となります。

同じく、ここで大切な事は、”使用後、肌が荒れてしまいました・・・”という文章そのものではなく、”肌荒れ”と”xxxクリーム”の関連性が”データ全体から見た上での”この商品特有の事象であり、計算により”客観的に”抽出されたという事実です。

例えば、企業の製品開発部門が、コールセンター部門のリーダーから”xxxクリームで肌荒れの声があるよ”と言われたならば、「あぁ、なんとなくわかっているよ。他にも色々聞いているし、いくつかの製品で肌荒れの報告があるので、そのうちこちらで検討して対応しますよ。」(そんな冷たい開発部門はないかな。。) となりますが、抽出した事象の客観性、非凡性を定量的な根拠と共に報告する事により、単なる一意見・一般論ではなく、製品・サービス提供者側が行動を起こすトリガーとなる”知見”となるのです。

上の例では、テキストマイニングの結果を以って、おそらく製品開発部門はxxxクリームの肌荒れに関しての調査に取り掛かる事となります。

テキストマイニングが、お客様の声を開発やサービスに反映させるためによく使われているというのは、このような理由によるところとなります。

Wikipedia によると、テキストマイニングの効果として「データマイニングが顧客個人の購買傾向を分析するなどの目的で行われるのに対し、テキストマイニングは顧客個人の特性よりも提供側の状態を把握する面において威力を発揮する。」とあります。今更ですが、全くその通りだと思います(顧客のエモーションや、興味・特質などをテキストマイニングでやる例なども、もちろんありますが)。

４．BIGDATA分析

ところで、ちょっとここで技術的な側面で見てみます。

この相関性を効率よく効果的に導き出すにはデータの量が重要になります。

先程の口コミのデータセットの件数を1/2程度(7千件)に減らして、件数と相関のソート結果を見てみます。

数を減らしたデータセットでは、件数でソートした場合(図の左側)のリスト順位はあまり変わりませんが、相関でソートした場合(図の右側)は少々異なるリストとなり、相関の値も低くなっていることがわかります。

一見、データ数が増えるとノイズも増えて分析が難しくなるように思えますが、そもそも人が細かく見ていくのではなく、機械計算で特徴性(相関性)を次々と捌いていく分析では、ノイズに悩まされることもなく、分析していく速度はあまり変わりません。

それどころか、サンプリングしてしまうと漏れてしまうような要素も全て捉えることができ、せっかくためたデータを無駄なく有効活用する事が出来ます。

データは多い方が知見も見つかりやすく、対策効果も高くなるという事です。

それもこれも技術的には、luceneのような大容量データの高速アクセスに対応したライブラリを使った事によるところが非常に重要となります。

20年以上前からあるテキストマイニング技術は、元々分解したテキストをRDB(リレーショナルデータベース)で索引化していましたが、luceneのようなライブラリを使い、全量を索引化して高速に分析することが可能となった今では、BIGDATAをそのまま分析できる手法として、これまで以上に注目されるようになった技術となります。

念のためBIGDATAの定義を確認しておきますが、2001年にダグ・レイニーによってい提唱された、ボリューム（volume、データ量）、速度（velocity、入出力データの速度）、バラエティ（variety、データ種とデータ源の範囲）の特性を持つデータと定義されています。

日々大量に生成される、非構造であるテキストデータを、次々と高速に読み解いて知見を抽出していく事こそが、テキストマイニングの醍醐味でもあり、近年ビジネスで必要とされている技術となります。

５．テキストマイニングで出来る事、色々

さて話を戻しまして、最後にテキストマイニングで出来ること、ビジネス現場で使われ方を色々見てみます。

データに日時に関する情報がある場合、時系列に基づく、障害の事前検知や、問題の経過観察などにも使われます。

上の図では、直近増加傾向にある事象や、過去に顕著に増加したがその後鎮静化しつつある事象が確認できます。

また、分析の対象や目的が決まっていない(仮説がない)場合に、例えば、製品名と名詞のクロス分析画面で、製品改善に関するマイニングの入口を見つけたりします。

上の図では、縦軸の製品名に対して、横軸の名詞で各製品と相関が高いキーワードとの交点に色が付いているので、ここから掘り下げていき知見を見つけていきます。

更には、テキストマイニングの分解結果をCSVなどにエクスポートして、SPSS/Cognos等の分析ツールのインプットにする事により、数値データと共に分析したり、効果的なグラフィカルレポートを作成したりなど、幅広い使い方も可能です。

６．最後に

今回、テキストマイニングの説明で使いました IBM の WatsonDiscovery の分析機能ですが、IBMが古くから持つテキストマイニング技術に、Watsonで培ったAIの自然言語技術が加わり、

より身近なものになってきたと、長い事関わってきた私から見ても感慨深いものがあります。

数値データ分析や統計解析、アルゴリズムが大好きなクールガイには少々物足りないかもしれませんが、世の中には現実として、構造化データと非構造化データがあり、データは見るか捨てるしかないわけです。

いや、脅迫してるように聞こえたらすいません。結構やってみると楽しいですよ～♪、と言いたかったわけです。

そして、最後に重要な事ですが、このWatsonDiscoveryの分析機能、1か月無償のPlusプランでは使えません。Enterpriseプランからの機能となっています(涙)。

次回の「身近な疑問をヒモトク」もテキスト分析です。日立ソリューションズ東日本の柴田さんが「流行りのソーシャルリスニング！SNSのデータってどうやって活用するの？」を執筆して下さいます。また並行連載中の「ブログで学ぶSPSS Modeler」はAITの林さんが「時系列データを扱うシーケンス関数をおさらいしよう！前編」でSPSS Modelerのオフセット関数を詳しく解説。お楽しみに。

→Watson Discoveryの詳細についてはこちら

→SPSS Modelerの詳細についてはこちら

→これまでのSPSS Modeler ブログ連載のバックナンバーはこちらから