INDEX
インターネットにものすごい量の文字データが存在することは言わずもがな、ですが、その全体量は日々増え続けています。一説によると、世界に存在するデータの90%が過去2年に作成されたものだそうです。
最近の情報やデータがそれだけ存在するわけですから、もしもあなたが企業のマーケティング担当者で、新商品について人がどんな感想を述べているのかを知りたい、という場合、その情報から人々の率直な意見や感想を拾い出したい、とおそらく考えるでしょう。
そんな時に便利なのが、文章をビッグデータ化して分析し、大量のテキストデータから知りたい情報に関連したものをピックアップできる「テキストマイニング」という技術です。
この記事では、以下の2つのポイントを中心にテキストマイニングについてご紹介したいと思います。
これからテキストマイニングを行う場合には、ぜひ参考にしてみてください。
大量の文章データ(テキストデータ)から有益な情報を取り出すことを総称してテキストマイニングといいます。
主に、アンケートの自由記述や、コールセンターへの問い合わせ内容、SNSでの口コミ分析などに活用されています。
日本語の文章を扱うためには、文章を単語単位に分割して、過去形などの変化も元の単語に戻して同じ言葉として扱い集計できるようにする必要があります。
「できる」だけではなく「できた」もカウントしないといけないからです。この手法を形態素解析と呼んでいます。形態素解析の精度が月日とともに上がったことでソフトウェアが登場して、広く使われるようになったそうです。
これらの語彙選びが分析をする上で重要となるので、テキストマイニングツールと呼ばれるソフトウェアを利用するのが一般的と言われています。オンライン上で使える無料のツールもあります。
テキストマイニングのプロセスは大きく分けて下記の5つに分けられます。
上記5つの具体的な内容は下記の表の通りです。
データ収集 | 分析対象のテキストデータを集める |
前処理 | トークン化・ストップワードの除去の実行し、データをクリーニングする |
特徴抽出 | TF-IDF・トピックモデリングを使用して、テキストから特徴を抽出する |
分析 | 抽出した特徴を基にパターンを認識する |
可視化 | 分析結果を表現、意味を解釈する |
非構造化データを構造化データに変換する際には、「自然言語処理」という技術が使われます。そのため、テキストマイニングを行う場合には、自然言語処理の知識が必要です。
自然言語処理とは、国立研究開発法人産業技術総合研究所の文献によれば、「人が書いたり話したりする言葉(=自然言語)をコンピューターで処理する技術」と定義されています。
自然言語処理はAI関連技術の一つであり、チャットボットの作成やニュース記事の自動生成、機械翻訳など、さまざまな分野で活用されています。
前述の通り、自然言語処理は人が書いたり話したりする言葉をコンピューターで処理する技術です。そのため、日本語や英語、アラビア語など、言語ごとに固有の難しさが存在します。
たとえば、日本語の場合、「単語間の切れ目がわかりにくい」という点が挙げられます。日本語に詳しい方なら、文章を読む際に単語の切れ目を容易に判断できます。例えば、「今日はいい天気です」という文章は、「今日は」「いい」「天気」「です」と単語に分けて理解できます。
しかし、コンピューターにはそれができません。そのため、後述する「形態素解析」という自然言語処理技術を使って、文章を単語に分割する必要があります。近年では、ディープラーニングの登場により、自然言語処理の精度も大幅に向上しました。インターネット上で機械翻訳を利用した経験がある方は、翻訳された文章の自然さや正確さを目にしていることでしょう。
また、OpenAI社の「ChatGPT」などの大規模言語モデルも、新たな技術として注目されています。自然言語特有の難しさを克服し、テキストから価値のある情報を抽出するために、自然言語処理は有効な手段となります。
テキストマイニングとは、文章データから情報を取り出すことです。
一方で、データマイニングとは膨大な量のデータから情報を取り出すことの総称です。データマイニングでは、テキストマイニングと異なり、テキスト以外にも画像・動画・統計データなどのあらゆるデータを用いて分析を行います。
データマイニングの中のテキストデータを用いた分析のことが、テキストマイニングだと覚えておきましょう。
解析方法は多数ありますが、ここでは一般的なテキストマイニングの解析方法を紹介します。
一般的なテキストマイニングの解析方法には、以下の5つがあります。
それでは、それぞれの分析方法について解説します。
テキストマイニングの代表的な手法は、センチメント分析です。
センチメント分析とは、簡単にいうと顧客や消費者の感情を分析する手法です。ユーザーがどのような感情をもったのかを分析します。「肯定的」「中立」「否定的」の3パターンに分けるのが基本と言われていますが、年代によっては言葉の意味合いが変わってしまう単語もありますので、人が解釈をしたあとに、新しくシステムを実装して精度を上げる必要があるようです。
対応分析はコレスポンデンス分析ともいわれ、散布図で表現できる解析手法です。散布図を使うことで、アンケートのような項目が多いデータを取り扱う場合に、項目の関係性が視覚的にわかりやすくなる点がメリットと言われています。
主成分分析は、可能な限り変数を少なくする手法です。大量のデータだとしても見やすい点、分析しやすい点がメリットです。ただし変数を少なくすることでそれ以外の情報を切り捨ててしまうのがデメリットと言われています。
共起分析は、文章中に2つの単語がどのくらいの頻度で同時に使われているのかのデータを抽出し、商品やサービスなどの分析をする方法です。
例えば、「エアコン」と一緒に「省エネ」や「節電」などの単語を組み合わせて、それらが同時にどのくらいの頻度で使われているのかを抽出し、エアコンに求められるものや、自社商品への感想が得られるでしょう。
テキストマイニングは、文章データから情報を取り出すことでしたが、その目的には主に以下の3つが挙げられます。
テキストマイニングを実施する際には、テキストマイニングをする目的と求める成果が合っているのかを確認しましょう。それでは、テキストマイニングの目的について、それぞれ詳しく解説します。
アンケートを行った際に、自由記述をしてもらった内容の分析をテキストマイニングで行うケースです。アンケートの数が少なければ手作業でもスムーズに集計・分析できますが、大量のアンケートを行った場合は、全てを目を通して分類することは容易ではありません。
そのため、テキストマイニングを使ってアンケート結果の傾向を把握するアプローチが有効です。ビジネスの現場では、コールセンターでの対応内容やメールでの問い合わせ内容から、消費者の声を分析するためにテキストマイニングが活用されています。
この結果をもとに、消費者からどのような意見が寄せられているのかを分析し、新商品の開発につなげることも可能です。
SNSにはたくさんのテキストがあります。その大量のテキストデータをテキストマイニングすることで、有益な情報を抽出することができます。
例えば、製品の評判分析やイベントの盛り上がり状況の可視化など、SNS上のテキストを活用したテキストマイニングは、さまざまな分野で役立てられています。
また、SNSに添付されている画像や映像を解析し、より詳細な内容を分析することも可能です。
商品やサービスについてのアンケートや問い合わせの内容を集めて、テキストマイニングを行うことで、年齢・性別・問い合わせの種類などの内容を抽出できます。
そのため、顧客のニーズを把握しやすくなります。問い合わせの種類に関しては、見る人によって捉え方が変わるため、テキストマイニングで数値化した方が、より正確なデータの抽出ができるでしょう。顧客のニーズを把握することで、よりニーズに合った商品開発や販売戦略を立てられることに繋がります。
テキストマイニングは、アンケートや問い合わせなどの顧客データだけでなく、社内データでも行えます。
日報や作業報告などのデータを集めてテキストマイニングを行うことで、業務の課題を抽出し、その課題に対する改善策を見つけられます。業務の改善は、業務効率を上げたり、無駄を少なくしたりすることに繋がるため、積極的に行いたい施策の1つです。
大学や企業などの組織内で、隠れている暗黙の知識を可視化するために、テキストマイニングは非常に有効です。
最近では、ナレッジマネジメントとして企業内の知識を可視化し、活用する取り組みが進んでいます。従業員の経歴や業務経験などをテキストマイニングで分析し、彼らが持っているスキルを明らかにすることも可能です。
また、人手不足が工場での課題となっている場合には、知識の継承を目的として、テキストマイニングによって暗黙の知識を抽出する取り組みも進んでいます。
未来の流行を予測することにも、テキストマイニングが用いられます。
SNSのコメントや投稿などのテキストデータをテキストマイニングすると、どんなものに流行の予兆があるのかを判断することに繋がります。例えば、過去にタピオカが流行したことがありましたが、テキストマイニングをすることで、早めに流行を察知して店舗展開ができ、大きな売上を出せるでしょう。
テキストマイニングのデメリットを3つ紹介します。
課題・留意点として押さえておきましょう。
テキストマイニングの精度はあまり高くない、と言われています。それがどうしてなのか、例を出して説明してみます。
例えば、とある新商品のお菓子があったとして、味についてのアンケートデータがあったとします。分析をするために味に関連する言葉を登録します。ここでは「甘い」「まずい」「美味い」という単語と仮定します。
こうなると「硬さがよい」という単語は漏れてしまうことになりますが、ここで「硬さがよい」「うまい」「おいしい」などを加えて拾う単語を増やしていくと「パッケージの硬さがちょうどいいので持ち運びが便利」や「売り子が美人で販売がうまい」というような言葉も拾ってしまうこととなり、お菓子自体の感想としての精度は落ちていきます。
テキストマイニングは、文章の単語を解析するために使われる手法です。しかし、どの言語でも単語の数は非常に多いです。
知らない単語が出てくると、分析の精度が下がってしまいますので、単語の漏れがなるべくないようにデータを収集する必要があります。
そのため、テキストマイニングを行うためには、大量の文章データを集める必要があります。もしデータ数がたとえば50程度しか集まらないような場合は、一つ一つ目視で確認しながら手作業で分析するほうが良い場合もあります。
テキストマイニングとは、大量のデータを利用して、使用される単語やその特徴を分析する方法です。
そのため、データの量や特徴の数も非常に多くなり、計算には時間がかかります。テキストマイニングを行う際には、この点も考慮しながら分析計画を立てることが重要です。
前章ではテキストマイニングのデメリットを紹介しましたが、本章ではテキストマイニングのやり方を3つ紹介します。
順に紹介します。
Excelは、テキストマイニングにも利用することができる代表的な表計算ツールの一つです。多くの人がExcelを使い慣れているため、気軽にテキストマイニングを行うことができる利点があります。
Excelでテキストマイニングを行うためには、まず文章を別のツールを使って単語ごとに分解します。その後、SUM関数やCOUNTIF関数などを使って単語を整理・集計します。
そして、その結果をグラフや表などで視覚化しましょう。ただし、Excelでのテキストマイニングには、扱えるデータの量に限りがある点に留意する必要があります。
データ量が少ない場合にはExcelだけで十分ですが、大量のデータを扱う場合には、後述する別のツールの導入がおすすめです。
PythonやRなどのプログラミング言語を使って、テキストマイニング用のプログラムを作成できます。
プログラミング言語を使うと、プログラムを自由にカスタマイズできるのが大きな利点です。ただし、プログラミングには専門知識やスキルが必要ですので、スキルを持っている人に業務が偏るなど、属人化する可能性もあります。
また、細かな条件設定で分析を行いたい場合には、プログラミングの知識がある人材を確保することをおすすめします。
さまざまなテキストマイニング専用ツールが提供されています。これらのツールを使えば、プログラミングの知識がなくても大量のデータを扱い、テキストデータを解析したり可視化したりできます。
無料のツールもありますが、有料のツールと比べると機能が制限されている場合が多いので、注意が必要です。
一方、有料のツールは多機能で高度な分析やカスタマイズも可能です。そのため、テキストマイニングを行う際には、自分の目的や予算に合わせて適切なツールを選ぶことが重要です。最後に、ツール選びのポイントを3つ紹介します。
本章ではテキストマイニングツールを無料と有料に分けて10個紹介します。
順に紹介します。
無料で利用できるテキストマイニングツールを3つ紹介します。
順に紹介します。
「AIテキストマイニング」というツールは、株式会社ユーザーローカルが提供しているもので、AI(人工知能)を活用しています。
無料版では、ブラウザのフォームにテキストを入力したりデータをアップロードするだけで、簡単に分析することができます。だから、どなたでも気軽に利用できます。
有料版では、セキュリティが強化されていて、グループでの利用も可能です。
KH Coderとは、計量テキスト分析やテキストマイニングのためのフリーソフトウェアです。
具体的には下記のような分析に使用できます。
マウス操作のみで本格的な分析ができ、必要に応じてR・MySQLコードを編集することでカスタマイズが自在なのがメリットです。
マイクロソフトが提供しているエクセルでも、テキストマイニングができます。
エクセルでテキストマイニングを行う場合には文章を単語に分けて、単語をそれぞれセルに入れます。そして、COUNTIF関数を使うとテキストマイニングをすることが可能です。エクセルは、テキストマイニングに手間がかかりますが、無料で利用できるメリットがあります。
次に利用しやすい有料テキストマイニングツールを7つ紹介します。
それぞれ見ていきましょう。
引用:見える化エンジン公式HP
見える化エンジンは、12年連続業界シェア1位を獲得しているテキストマイニングツールです。
SNSの声・アンケート・営業日報などのテキストデータを用いたテキストマイニングが行えるだけでなく、音声データをテキスト化して、そのテキストデータを用いたテキストマイニングもできます。分析結果は、初心者でもわかりやすく表示されるため、利用しやすい特徴があります。
Natural Language APIはGoogleが提供している、テキストマイニングができる自然言語処理のAPIです。
Natural Language APIでは、以下の5つの分析機能を利用できます。
Natural Language APIを利用することで、文章をポジティブ・ネガティブ・ニュートラルの3つに分類できたり、テキストをコンテンツに分類できたりします。
Magic Insight for WEXは、メール・文書・画像・動画・音声などデータを取り扱うプラットフォームで、月額課金制で利用できます。膨大な量のデータを、AIが「理解」「推論」「学習」することで、より正確なデータ分析を実現しています。
自動化されたSNS分析ツールは、ソーシャルリスニング、SNSマーケティング、SNS集客をサポートします。具体的には下記のSNSを独自の分析技術で分析できます。
リーチやエンゲージメントなどのソーシャルリスニング分析はもちろんのこと、競合調査やトレンド分析、マーケット調査などにも活用できます。
初期費用は無料で、月額10,000円から利用できます。契約期間や利用人数に縛りはありませんので、自由に利用できます。手頃な価格でありながら、テキストマイニング機能やAIによる画像分析機能も備えています。
さらに、各SNSでの二次拡散や三次拡散を含めて影響力を持つインフルエンサーを自動的に発見し、アプローチするためのインフルエンサーマーケティング支援機能も標準搭載されています。東証一部上場企業から創業間もないスタートアップ企業まで、幅広い業種で利用されています。
TextVoiceは、20年以上の実績を持つマーケティングリサーチ会社が提供するテキストマイニングツールです。
シンプルで使いやすいUIを備えており、分析にはCSVデータをアップロードするだけでOKです。また、辞書の自動生成機能もあり、類義語を自動でまとめて分析の対象にできます。
テキストマイニングで欠かせない類義語整備を自動化することで、作業効率が大幅に向上します。さらに、「ワードクラウド」という言葉の出現量を文字の大きさで表したり、「ネットワーク」という言葉と言葉のつながりを可視化したりするなど、6つの分析結果を自動で出力できます。
1つのデータに対してさまざまな切り口で分析することで、ニーズやその時々の気持ちなど、より正確なインサイトを読み取れます。顧客理解を深めるのに役立つツールです。
VextMinerは、大量の文書情報を解析し、人間では読み切れない情報を抽出・活用できるテキストマイニングツールがあります。
このツールは、言語の自動学習機能に強みを持ち、文章ごとに主要な話題を簡潔に抽出することができます。その結果、工数を削減できます。
また、類似した話題を自動分類し、分類体系を迅速に構築することも可能です。さらに、会話テキストやSNSなどで収集された数百万件もの大量データの分析にも対応しており、予兆監視や文脈抽出、自動要約などの分析結果をわかりやすく可視化できます。
このツールは、豊富なビッグデータに潜む少数意見を見逃すことなく発見できます。さらに、チャット履歴やFAQからAI学習知識を生成し、追加のメンテナンスを自動化することで、チャットボットの回答精度を向上させるオプションも備えています。
野村総合研究所が自社で開発したテキストマイニングツール「 TRAINAテキストマイニング」は、業界や商品の感性に関する辞書や意味・感情解析技術を備えています。
特に「ポジネガ分析」という独自の辞書を搭載しており、分析データに基づいて適切な感情の分析が得意です。
さらに、効率的かつ正確なデータ分析を行うためのさまざまな機能も備えています。例えば、ChatGPTとの連携により、キーワードの設定作業を大幅に簡略化することができます。
また、分析結果から自動的にPowerPoint形式のレポートを作成することも可能です。さらに、特徴マップ機能を使って隠れた傾向を包括的に抽出したり、クロス分析を行ってデータを多角的に比較することもできます。
このツールは、コピー率を下げながらも、専門的でわかりやすい文章で説明ができます。
さて、データマイニングについて解説してきましたが、どのようなものかなんとなくイメージを掴んでいただけましたでしょうか?
あなたがこうしてこの記事を読んでいる間にもリアルタイムで情報は増え続けています。使えるはずの情報やデータが使われずに放置されるというのは実にMottainai状況です。せっかくのテキストデータも、分析をしなければ企業活動に活用できるような「生きるデータ」にはなりえません。大量のテキストの分析を行いたい場合は、ぜひテキストマイニングという手法も選択肢に加えて考えてみてください!
(桑折和宗)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!