About us データのじかんとは?
インターネットにものすごい量の文字データが存在することは言わずもがな、ですが、その全体量は日々増え続けています。一説によると、世界に存在するデータの90%が過去2年に作成されたものだそうです。
最近の情報やデータがそれだけ存在するわけですから、もしもあなたが企業のマーケティング担当者で、新商品について人がどんな感想を述べているのかを知りたい、という場合、その情報から人々の率直な意見や感想を拾い出したい、とおそらく考えるでしょう。
そんな時に便利なのが、文章をビッグデータ化して分析し、大量のテキストデータから知りたい情報に関連したものをピックアップできる「テキストマイニング」という技術です。
この記事では、
・テキストマイニングとは何か?
・どのように活用すると便利なのか
の2つのポイントを中心にテキストマイニングについてご紹介したいと思います
大量の文章データ(テキストデータ)から有益な情報を取り出すことを総称してテキストマイニングといいます。
主に、アンケートの自由記述や、コールセンターへの問い合わせ内容、SNSでの口コミ分析などに活用されています。
テキストマイニングが向いているのは大きく以下の2点と言われています。
全体像を把握するとは、テキストのデータからどんな単語が多いのか、またはどのくらいの頻度でその単語が使用されているのかをざっくりと調べることです。特徴を抽出するとは、テキストのデータからどんな単語が増えているのかを分析し世の中の関心・特徴を知ることができます。
どちらともにざっくりとであり精度を高めることは前提としていないことを覚えておいた方がよいと言われています。
テキストマイニングの精度はあまり高くない、と言われています。それがどうしてなのか、例を出して説明してみます。
例えば、とある新商品のお菓子があったとして、味についてのアンケートデータがあったとします。
分析をするために味に関連する言葉を登録をします。ここでは「甘い」「まずい」「美味い」という単語と仮定します。
こうなると「硬さがよい」という単語は漏れてしまうことになりますが、ここで「硬さがよい」「うまい」「おいしい」などを加えて拾う単語を増やしていくと「パッケージの硬さがちょうどいいので持ち運びが便利」や「売り子が美人で販売がうまい」というような言葉も拾ってしまうこととなり、お菓子自体の感想としての精度は落ちていきます。
解析方法は多数ありますが、ここでは一般的なテキストマイニングの解析方法を紹介します。
テキストマイニングの代表的な手法は、センチメント分析です。
センチメント分析とは、簡単にいうと顧客や消費者の感情を分析する手法です。ユーザーがどのような感情をもったのかを分析します。
「肯定的」「中立」「否定的」の3パターンに分けるのが基本と言われていますが、年代によっては言葉の意味合いが変わってしまう単語もありますので、人が解釈をしたあとに、新しくシステムを実装して精度を上げる必要があるようです。
対応分析はコレスポンデンス分析ともいわれ、散布図で表現できる解析手法で視覚的にわかりやすくなる点がメリットと言われています。
主成分分析は、可能な限り変数を少なくする手法です。大量のデータだとしても見やすい点、分析しやすい点がメリットです。
ただし変数を少なくすることでそれ以外の情報を切り捨ててしまうのがデメリットと言われています。
日本語の文章を扱うためには、文章を単語単位に分割して、過去形などの変化も元の単語に戻して同じ言葉として扱い集計できるようにする必要があります。
「できる」だけではなく「できた」もカウントしないといけないからです。
この手法を形態素解析と呼んでいます。形態素解析の精度が月日とともに上がったことでソフトウェアが登場して、広く使われるようになったそうです。
これらの語彙選びが分析をする上で重要となるので、テキストマイニングツールと呼ばれるソフトウェアを利用するのが一般的と言われています。オンライン上で無料で使えるツールもあります。
インターネット以前とは違い、パソコンや携帯電話から人々が日々発信する言葉は「データ」として取り扱うことが可能です。これまでは分析が難しかった音声データなどでも、音声認識ツールなどを活用してテキスト化することでデータとして取り扱うこともできます。
たとえば、下記のようなデータが日々世界中で記録されています。
など蓄積されているデータは1日単位でいっても凄まじい量があります。
これらテキストデータは膨大な量になりますが、リアルタイムで消費者が思っていることを表してくれているので、いち早くキャッチすることで、有益な活用ができるはずです。
さて、データマイニングについて解説してきましたが、どのようなものかなんとなくイメージを掴んでいただけましたでしょうか?
あなたがこうしてこの記事を読んでいる間にもリアルタイムで情報は増え続けています。使えるはずの情報やデータが使われずに放置されるというのは実にMottainai状況です。せっかくのテキストデータも、分析をしなければ企業活動に活用できるような「生きるデータ」にはなりえません。大量のテキストの分析を行いたい場合は、ぜひテキストマイニングという手法も選択肢に加えて考えてみてください!
(桑折和宗)
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!