About us データのじかんとは?
INDEX
みなさんは、構造化データ・非構造化データの違いを把握していますか?
データ活用において、その違いを理解しておくことは重要です。両者の違いを理解しなければ、データ活用の難易度や方向性、必要なデータサイエンス人材の質・量などを適切に策定することはできません。
早速、構造化データ・非構造化データの違いを押さえていきましょう。
構造化データ、非構造化データの違いは、“データの構造が明確に定義されているか、定義されていないか”です。データの構造とは、データ型、データの配列、区切り文字などで、「列」と「行」を持つ表形式がこれまで用いられてきました。構造化データは利用目的に従ってデータの構造が明確に定義されたデータであり、非構造化データはそれ以外のすべてのデータを指します。
両者を理解するにあたって押さえておきたいポイントを以下の表でまとめてご確認ください。
構造化データ | 非構造化データ | |
データ構造 | 明確 | 不定 |
データの性質 | 定量的 | 定性的 |
データ分析 | しやすい | 専門知識が必要 |
例 | リレーショナルデータベース(RDB)、Excel、CSVなど | テキスト、PDF、画像、音声、動画、SNSの書き込み、センサーデータ、紙の文書など構造化されていないデータ全て |
データ量 | 少ない | 多い |
検索性 | 高い | 低い |
機械学習 | 利用しやすい | 強化学習、ディープラーニングなど可能性は広がっている |
保存場所 | 主にデータウェアハウス | 主にデータレイク |
構造化データはデータ構造が明確であり、機械学習やデータ分析に用いやすいかわりに、事前の整理が必要なため、絶対量は少なくなります。また、目的に従って構造化されているため、利用の自由度には制限があります。
一方、非構造化データはいたるところに存在するため、取得が容易であり活用の可能性も開かれています。ただし、構造が統一されていないため、実際の活用時には変換・加工の手間やデータサイエンスの知識が求められます。
なお、非構造化データのなかでも、XML、JSONなど、表形式で明確に定義されていないものの、階層構造やメタタグなどである程度構造が整理されているデータは「半構造化データ」といいます。
構造化データを扱うデータベース言語として有名なのが「SQL」です。SQLは「Structured Query Language(構造化クエリ言語)」の頭文字で構成されており、まさに、構造化されたデータベースに対し、検索、追加、更新、削除、抽出、データ型変換、集計、重複・欠損・異常値の処理、結合といった操作を行うための言語といえます。
──なんだ、構造化データを活用するときにも操作の知識や手間が必要なんじゃないか。
そう、考えた方もいらっしゃるでしょう。データは構造化されていても、不要なデータが含まれていたり、分析のために並べ替えや抽出、他データとの統合を行いたくなったりすることはほぼ確実にあります。そのため、SQLやPython、R、Excelを用いた前処理の技術は構造化データの分析においても不可欠です。
ただし、Excelでテーブルを作成し、データを並べ替えたりソートした経験はあるという方は少なくないはずです。SQLやPython、Rを用いた前処理も、構造化データに対し行うものであれば習得難易度はそう高くありません。
機械学習の勉強にあたっても、構造化データを用いた教師あり学習(「正解データ」をあらかじめ与えることで特徴量を解析し分類や予測といった処理を行わせる機械学習の手法)から学ぶことで、データと結果の関係性を把握し、その基本が理解しやすくなるはずです。
近年は、ビッグデータに代表される非構造化データの活用に注目が集まっています。前述の通り、非構造データは全データ量の約8割といわれるほどの割合を占めておりながら、フォーマットが定まっておらず構造化データに比べ活用されてきませんでした。
しかし、非構造データを構造化するソリューションの登場や、非構造化データから特徴量を見出すディープラーニングなどの手法が発達したこと、IoT、SNSの投稿などビジネスにおいて有用な非構造化データの量がさらに増加したことにより、今非構造化データへの注目が高まっています。
非構造データを構造化する手法としては、以下のようなものが挙げられます。
・ELT:「Extract(抽出)」「Load(読み込み)」「Transform(変換)」の頭文字で構成されており、生データを読み込み、利用しやすい形に構造化するまでの流れ。データレイクやDWHに機能として実装されていることが多い。
・アノテーション:「注釈」という意味の示す通り、非構造化データ一つ一つに対し、その意味を説明するメタデータを付与すること。近年は自動化ツールも多く登場している。
・TF-IDF:「Term Frequency – Inverse Document Frequency(単語頻度-逆文書頻度)」の略で、ある文書中における単語の出現頻度と、その単語を含む文書の頻度を掛け合わせることでその単語のある文書中での重要度を抽出する手法
ほかにも、音声のテキスト化やデータクレンジング自動化など、非構造化データの活用を支援するツールは数多く存在します。
構造化データ・非構造化データの違いについて述べたうえで、それぞれの活用イメージについて簡単に解説してまいりました。『平成25年版情報通信白書』(総務省)では、ICTの進展に伴い、構造化データに比べ、非構造化データの量が飛躍的に増加したことが図示されています。そこからの10年で貴社の非構造化データの活用はどの程度進んだでしょうか? 今一度振り返ってみることをおすすめします。
【参考資料】 ・構造化データと非構造化データの比較:完全ガイド┃talend ・「高等学校における「情報II」のためのデータサイエンス・データ解析入門」┃総務省統計局 ・非構造化データは「宝の山」! 構造化しAI活用するにはどうすればいい? DATAFLUCTとFastLabelの場合┃Web担当者Forum ・tf-idf(term frequency - inverse document frequency)とは?┃@IT ・ETL(抽出、変換、ロード)┃IBM ・第1部 特集 「スマートICT」の戦略的活用でいかに日本に元気と成長をもたらすか<平成25年版情報通信白書┃総務省
(宮田文机)
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!