字面だけで不吉な印象を与えるダークデータ。犯罪がらみ? と一瞬思ってしまいますが、そうではありません。ダークデータとは、日々データベースに蓄積されていくビッグデータのうち、分析不可能または分析されないために価値が不明なデータを指します。
例えば防犯カメラの映像がそれ。毎日定点で記録される映像は、見方によっては情報の宝庫ですが、ふさわしい分析ツールがなければ分析にコストがかかりすぎ、一定期間保存された後に廃棄されるのが普通です。
IBM Big Data Analytics Hubによると、ビッグデータのうちコンピューターが理解・分析できる「意味ある」データは全体の20%のみで、残りの80%がダークデータに分類されるのだそうです。
さらに年間データ量は毎年倍増しており、2020年には44兆ギガバイトに膨れ上がる見込みとなっています。そのうち80%が利用されていないダークデータだとしたら……
Veritasというアメリカのデータアナリシス企業によると、平均的な中規模企業が1000兆バイト(ファイル約23億個分)のデータを保存したとすると、その費用は年間約500万ドル(約5億5千万円)に上るとのこと。しかもその80%が、利用すらされていないダークデータの保存という理不尽さ。その無駄を削って給料に回してくれ! という社員たちの悲鳴が聞こえてきそうです。
ただしダークデータは「価値が分からない」のであって、「価値がない」とは限りません。ダークデータを無用の長物にするか情報の宝庫にするかは、企業のデータ運用方法にかかっています。
IBMはひと括りにダークデータと呼んでいますが、Veritasはダークデータの中で明らかに利用価値がないデータを「ROTデータ」と定義しています。ROTはRedundant(冗長)、Obsolete(陳腐)、Trivial(無駄)の頭文字で、重複している情報や、古くて使い物にならないデータのことです。
Veritasによると、こうしたROTデータは平均でデータ全体の30%以上に上ります。それを除いた残り50%ほどがダークデータで、利用価値を見出せる可能性があるデータです。まずはROTデータとダークデータを仕分ける必要がありますが、これだけでもかなり骨の折れる作業でしょう。
またダークデータにもいくつか種類があり、それぞれ必要な分析のツールや難易度が異なります。
Eメール、各種書類、ログ、通知など、主にテキストから成るダークデータ。使いようによっては有用な情報源になるが、企業で保存される際に関連データベースにしっかり紐づけられていなかったり、効率的な分析ツールを導入していないことでダークデータ化する。
画像、ビデオ、音声などのデータ。これまでのコンピューター技術では、これらは単なるドットの集合体としてしか認識されず、意味を持たせることができなかった。AIのデータ分析活用により、この現状は変わりつつある。(後述)
ディープウェブとは、ウェブ上に存在しながらも公開検索エンジンの検索結果には引っかからない情報のこと。ネイチャー誌のある調査によると、Google検索ではウェブ全体の情報の約16%しか表示してくれないそう。その規模を正確に知ることは不可能だが、公開情報の500倍はあると推測する向きもある。
例えば学術機関、政府機関関連のデータ、医療記録、法的・科学的文書、他言語データベース、組織に特化したデータベースなどはすべてディープウェブで、一般からはアクセスできない。
ダークデータの分析は従来のコンピューターの能力では対処できませんでした。しかし近年、コンピューターの映像・パターン認識、認知分析能力といったAI分野での研究が飛躍的に進んでいることから、ダーク・アナリティクス(ダークデータ解析)が脚光を浴びています。
例えばGoogle Video Intelligence API。動画内に何が映っているのかを自動判別してくれます。この技術をカスタマイズすれば、無意味なように見える定点カメラの映像からでも有用な情報を引き出すことができるかもしれません。
また2017年5月にApple社は、AIを使用してダークデータを構造化データに変換する技術を開発した企業Lattice Dataを2億ドルで買収しました。さすがAppleさん、ダークデータ対策にもぬかりがありません。
経営コストの無駄を削り、無用の長物を情報の宝庫に変えられるかもしれない魔法、ダーク・アナリティクス。しかしデータには常にコンプライアンスの問題がつきもの。そのためダーク・アナリティクスをアウトソースするのであれば、信頼のおけるデータ分析企業とタッグを組むことも重要な要素です。
参考リンク Systems Academy - Dark Data Veritas.com
(佐藤ちひろ)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!