About us データのじかんとは?
INDEX
インターネットにものすごい量の文字データが存在することは言わずもがな、ですが、その全体量は日々増え続けています。一説によると、世界に存在するデータの90%が過去2年に作成されたものだそうです。
最近の情報やデータがそれだけ存在するわけですから、もしもあなたが企業のマーケティング担当者で、新商品について人がどんな感想を述べているのかを知りたい、という場合、その情報から人々の率直な意見や感想を拾い出したい、とおそらく考えるでしょう。
そんな時に便利なのが、文章をビッグデータ化して分析し、大量のテキストデータから知りたい情報に関連したものをピックアップできる「テキストマイニング」という技術です。
この記事では、以下の2つのポイントを中心にテキストマイニングについてご紹介したいと思います。
これからテキストマイニングを行う場合には、ぜひ参考にしてみてください。
大量の文章データ(テキストデータ)から有益な情報を取り出すことを総称してテキストマイニングといいます。
主に、アンケートの自由記述や、コールセンターへの問い合わせ内容、SNSでの口コミ分析などに活用されています。
テキストマイニングが向いているのは大きく以下の2点と言われています。
全体像を把握するとは、テキストのデータからどんな単語が多いのか、またはどのくらいの頻度でその単語が使用されているのかをざっくりと調べることです。特徴を抽出するとは、テキストのデータからどんな単語が増えているのかを分析し世の中の関心・特徴を知ることです。
全体像を把握することも特徴を抽出することも、どちらとも精度を高めることは前提としていないことを覚えておいた方がよいと言われています。
テキストマイニングの精度はあまり高くない、と言われています。それがどうしてなのか、例を出して説明してみます。
例えば、とある新商品のお菓子があったとして、味についてのアンケートデータがあったとします。分析をするために味に関連する言葉を登録します。ここでは「甘い」「まずい」「美味い」という単語と仮定します。
こうなると「硬さがよい」という単語は漏れてしまうことになりますが、ここで「硬さがよい」「うまい」「おいしい」などを加えて拾う単語を増やしていくと「パッケージの硬さがちょうどいいので持ち運びが便利」や「売り子が美人で販売がうまい」というような言葉も拾ってしまうこととなり、お菓子自体の感想としての精度は落ちていきます。
テキストマイニングとは、文章データから情報を取り出すことです。
一方で、データマイニングとは膨大な量のデータから情報を取り出すことの総称です。データマイニングでは、テキストマイニングと異なり、テキスト以外にも画像・動画・統計データなどのあらゆるデータを用いて分析を行います。データマイニングの中のテキストデータを用いた分析のことが、テキストマイニングだと覚えておきましょう。
テキストマイニングは、文章データから情報を取り出すことでしたが、その目的には主に以下の3つが挙げられます。
テキストマイニングを実施する際には、テキストマイニングをする目的と求める成果が合っているのかを確認しましょう。それでは、テキストマイニングの目的について、それぞれ詳しく解説します。
商品やサービスについてのアンケートや問い合わせの内容を集めて、テキストマイニングを行うことで、年齢・性別・問い合わせの種類などの内容を抽出できます。
そのため、顧客のニーズを把握しやすくなります。問い合わせの種類に関しては、見る人によって捉え方が変わるため、テキストマイニングで数値化した方が、より正確なデータの抽出ができるでしょう。顧客のニーズを把握することで、よりニーズに合った商品開発や販売戦略を立てられることに繋がります。
テキストマイニングは、アンケートや問い合わせなどの顧客データだけでなく、社内データでも行えます。
日報や作業報告などのデータを集めてテキストマイニングを行うことで、業務の課題を抽出し、その課題に対する改善策を見つけられます。業務の改善は、業務効率を上げたり、無駄を少なくしたりすることに繋がるため、積極的に行いたい施策の1つです。
未来の流行を予測することにも、テキストマイニングが用いられます。
SNSのコメントや投稿などのテキストデータをテキストマイニングすると、どんなものに流行の予兆があるのかを判断することに繋がります。例えば、過去にタピオカが流行したことがありましたが、テキストマイニングをすることで、早めに流行を察知して店舗展開ができ、大きな売上を出せるでしょう。
解析方法は多数ありますが、ここでは一般的なテキストマイニングの解析方法を紹介します。
一般的なテキストマイニングの解析方法には、以下の5つがあります。
それでは、それぞれの分析方法について解説します。
テキストマイニングの代表的な手法は、センチメント分析です。
センチメント分析とは、簡単にいうと顧客や消費者の感情を分析する手法です。ユーザーがどのような感情をもったのかを分析します。「肯定的」「中立」「否定的」の3パターンに分けるのが基本と言われていますが、年代によっては言葉の意味合いが変わってしまう単語もありますので、人が解釈をしたあとに、新しくシステムを実装して精度を上げる必要があるようです。
対応分析はコレスポンデンス分析ともいわれ、散布図で表現できる解析手法です。散布図を使うことで、アンケートのような項目が多いデータを取り扱う場合に、項目の関係性が視覚的にわかりやすくなる点がメリットと言われています。
主成分分析は、可能な限り変数を少なくする手法です。大量のデータだとしても見やすい点、分析しやすい点がメリットです。ただし変数を少なくすることでそれ以外の情報を切り捨ててしまうのがデメリットと言われています。
共起分析は、文章中に2つの単語がどのくらいの頻度で同時に使われているのかのデータを抽出し、商品やサービスなどの分析をする方法です。
例えば、「エアコン」と一緒に「省エネ」や「節電」などの単語を組み合わせて、それらが同時にどのくらいの頻度で使われているのかを抽出し、エアコンに求められるものや、自社商品への感想が得られるでしょう。
日本語の文章を扱うためには、文章を単語単位に分割して、過去形などの変化も元の単語に戻して同じ言葉として扱い集計できるようにする必要があります。
「できる」だけではなく「できた」もカウントしないといけないからです。この手法を形態素解析と呼んでいます。形態素解析の精度が月日とともに上がったことでソフトウェアが登場して、広く使われるようになったそうです。
これらの語彙選びが分析をする上で重要となるので、テキストマイニングツールと呼ばれるソフトウェアを利用するのが一般的と言われています。オンライン上で使える無料のツールもあります。
インターネット以前とは違い、パソコンや携帯電話から人々が日々発信する言葉は「データ」として取り扱うことが可能です。これまでは分析が難しかった音声データなどでも、音声認識ツールなどを活用してテキスト化することでデータとして取り扱うこともできます。
たとえば、下記のようなデータが日々世界中で記録されています。
このように、蓄積されているデータは1日単位でいっても凄まじい量があります。これらテキストデータは膨大な量になりますが、リアルタイムで消費者が思っていることを表してくれているので、いち早くキャッチすることで、有益な活用ができるはずです。
テキストアイニングでは、膨大なテキストデータを用いることが多いため、基本的にテキストマイニングツールを用いて行います。
そこで今回は、おすすめのテキストマイニングツール5選を紹介します。本記事で紹介する、テキストマイニングツールは以下の5つです。
無料で使えるツールもあるため、ぜひ参考にしてみてください。
見える化エンジンは、12年連続業界シェア1位を獲得しているテキストマイニングツールです。
SNSの声・アンケート・営業日報などのテキストデータを用いたテキストマイニングが行えるだけでなく、音声データをテキスト化して、そのテキストデータを用いたテキストマイニングもできます。分析結果は、初心者でもわかりやすく表示されるため、利用しやすい特徴があります。
Natural Language APIはGoogleが提供している、テキストマイニングができる自然言語処理のAPIです。
Natural Language APIでは、以下の5つの分析機能を利用できます。
Natural Language APIを利用することで、文章をポジティブ・ネガティブ・ニュートラルの3つに分類できたり、テキストをコンテンツに分類できたりします。
エラスティックサーチは、膨大なテキストデータからの高速検索を可能とするテキストマイニングツールです。
BoxやGoogleといった、さまざまなクラウドストレージ内のファイルを横断して検索できる機能があります。また、PythonやJavaScriptなどのプログラミング言語にも対応しています。セキュリティ対策にも使えるツールで、日々のセキュリティログを一元管理し、セキュリティ対策のフレームワークを活用することで、セキュリティの向上が図れます。
Magic Insight for WEXは、メール・文書・画像・動画・音声などデータを取り扱うプラットフォームで、月額課金制で利用できます。膨大な量のデータを、AIが「理解」「推論」「学習」することで、より正確なデータ分析を実現しています。
マイクロソフトが提供しているエクセルでも、テキストマイニングができます。
エクセルでテキストマイニングを行う場合には文章を単語に分けて、単語をそれぞれセルに入れます。そして、COUNTIF関数を使うとテキストマイニングをすることが可能です。エクセルは、テキストマイニングに手間がかかりますが、無料で利用できるメリットがあります。
KH Coderとは、計量テキスト分析やテキストマイニングのためのフリーソフトウェアです。
具体的には下記のような分析に使用できます。
マウス操作のみで本格的な分析ができ、必要に応じてR・MySQLコードを編集することでカスタマイズが自在なのがメリットです。
さて、データマイニングについて解説してきましたが、どのようなものかなんとなくイメージを掴んでいただけましたでしょうか?
あなたがこうしてこの記事を読んでいる間にもリアルタイムで情報は増え続けています。使えるはずの情報やデータが使われずに放置されるというのは実にMottainai状況です。せっかくのテキストデータも、分析をしなければ企業活動に活用できるような「生きるデータ」にはなりえません。大量のテキストの分析を行いたい場合は、ぜひテキストマイニングという手法も選択肢に加えて考えてみてください!
(桑折和宗)
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!