SPSS Statistics

テキストマイニングの実践とソフトウェア

記事をシェアする:

内田 治 氏

テキストマイニングとは、文章の形式で得られているデータ(文章データ、言語データ、テキストデータといった呼び方をする)から、有効な情報をコンピュータの力を使って抽出する方法のことです。この方法は決して新しい方法ではなく、10年ほど前から盛んに提唱されているものですが、普及は十分にしておりませんでした。この理由はテキストデータが入手しにくいということ、入手できてもソフトに入力するのが面倒であるということ、専用ソフトが高価である ことにあったと考えられます。

ところが、ネット調査の普及により、アンケート調査における自由回答文の収集が容易になったこと、以前に比べて安価で良質なソフトウェアが登場したことにより、再びテキストマイニングの効用に注目が集まり、質的研究の分野でかなり使われるようになってきました。

そこで、筆者のひとりである内田は、テキストマイニングと統計解析に着目した書籍を企画し、このたび、「SPSSによるテキストマイニング」という書籍を発刊することになりました。

テキストマイニングは、文章を単語に分割してカテゴリ化する部分と、カテゴリ化したデータを統計的に分析する部分に分けることができます。したがって、テキストマイニングを実施するには、文章を単語に分けるため自然言語解析を実行するソフトと、統計解析を実施するためのソフトが必要になります。

この書籍「SPSSによるテキストマイニング」では、文書を単語に分けるためのソフトとして、SPSS Text Analysis for Surveysを、統計解析のためのソフトとして、SPSS Statisticsを取り上げています。そして、テキストマイニングの基本的な考え方と、テキストマイニングのソフトであるSPSS Text Analysis for Surveysの利用方法を解説することが、この書籍の主たる目的で、次の3つのパートで構成しています。

第1部 テキスト分析
第2部 SPSS Text Analytics for Surveysの操作
第3部 統計解析

なお、この書籍で取り上げているSPSS Text Analytics for Surveysのバージョンは4、統計解析に使用したSPSS Statisticsのバージョンは20です。

SPSS関連書籍のご案内

thumb_book20120601_70x70
SPSSによるテキストマイニング入門
[著者] 内田 治 川嶋 敦子 磯崎 幸子 共著  [出版社] オーム社  [初版] 2012年6月

More SPSS Statistics stories

データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む


データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む


【予約開始】「SPSS秋のユーザーイベント2024」が11月27日にオンサイト開催

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  本年6月800名を超える方々にオンライン参加いただいたSPSS春のユーザーイベントに続き、『秋のSPSSユーザーイベント』を11月27日に雅叙園東京ホテルにて現地開催する運びとなりました。 このイベントは ...続きを読む