ビッグデータの80%がダークデータかも!?でも、そもそもダークデータって? | データで越境者に寄り添うメディア データのじかん
カテゴリー
キーワード

ビッグデータの80%がダークデータかも!?でも、そもそもダークデータって?

         

ダークデータとは?

字面だけで不吉な印象を与えるダークデータ。犯罪がらみ? と一瞬思ってしまいますが、そうではありません。ダークデータとは、日々データベースに蓄積されていくビッグデータのうち、分析不可能または分析されないために価値が不明なデータを指します。

例えば防犯カメラの映像がそれ。毎日定点で記録される映像は、見方によっては情報の宝庫ですが、ふさわしい分析ツールがなければ分析にコストがかかりすぎ、一定期間保存された後に廃棄されるのが普通です。

IBM Big Data Analytics Hubによると、ビッグデータのうちコンピューターが理解・分析できる「意味ある」データは全体の20%のみで、残りの80%がダークデータに分類されるのだそうです。

さらに年間データ量は毎年倍増しており、2020年には44兆ギガバイトに膨れ上がる見込みとなっています。そのうち80%が利用されていないダークデータだとしたら……

当然、企業のお荷物になります

Veritasというアメリカのデータアナリシス企業によると、平均的な中規模企業が1000兆バイト(ファイル約23億個分)のデータを保存したとすると、その費用は年間約500万ドル(約5億5千万円)に上るとのこと。しかもその80%が、利用すらされていないダークデータの保存という理不尽さ。その無駄を削って給料に回してくれ! という社員たちの悲鳴が聞こえてきそうです。

ただしダークデータは「価値が分からない」のであって、「価値がない」とは限りません。ダークデータを無用の長物にするか情報の宝庫にするかは、企業のデータ運用方法にかかっています。

データを仕分ける

IBMはひと括りにダークデータと呼んでいますが、Veritasはダークデータの中で明らかに利用価値がないデータを「ROTデータ」と定義しています。ROTはRedundant(冗長)、Obsolete(陳腐)、Trivial(無駄)の頭文字で、重複している情報や、古くて使い物にならないデータのことです。

Veritasによると、こうしたROTデータは平均でデータ全体の30%以上に上ります。それを除いた残り50%ほどがダークデータで、利用価値を見出せる可能性があるデータです。まずはROTデータとダークデータを仕分ける必要がありますが、これだけでもかなり骨の折れる作業でしょう。

またダークデータにもいくつか種類があり、それぞれ必要な分析のツールや難易度が異なります。

・テキスト系ダークデータ

Eメール、各種書類、ログ、通知など、主にテキストから成るダークデータ。使いようによっては有用な情報源になるが、企業で保存される際に関連データベースにしっかり紐づけられていなかったり、効率的な分析ツールを導入していないことでダークデータ化する。

・リッチメディア系ダークデータ

画像、ビデオ、音声などのデータ。これまでのコンピューター技術では、これらは単なるドットの集合体としてしか認識されず、意味を持たせることができなかった。AIのデータ分析活用により、この現状は変わりつつある。(後述)

・ディープウェブ系ダークデータ

ディープウェブとは、ウェブ上に存在しながらも公開検索エンジンの検索結果には引っかからない情報のこと。ネイチャー誌のある調査によると、Google検索ではウェブ全体の情報の約16%しか表示してくれないそう。その規模を正確に知ることは不可能だが、公開情報の500倍はあると推測する向きもある。

例えば学術機関、政府機関関連のデータ、医療記録、法的・科学的文書、他言語データベース、組織に特化したデータベースなどはすべてディープウェブで、一般からはアクセスできない。

ダーク・アナリティクスがビジネスゲームを変える!かも

ダークデータの分析は従来のコンピューターの能力では対処できませんでした。しかし近年、コンピューターの映像・パターン認識、認知分析能力といったAI分野での研究が飛躍的に進んでいることから、ダーク・アナリティクス(ダークデータ解析)が脚光を浴びています。

例えばGoogle Video Intelligence API。動画内に何が映っているのかを自動判別してくれます。この技術をカスタマイズすれば、無意味なように見える定点カメラの映像からでも有用な情報を引き出すことができるかもしれません。

また2017年5月にApple社は、AIを使用してダークデータを構造化データに変換する技術を開発した企業Lattice Dataを2億ドルで買収しました。さすがAppleさん、ダークデータ対策にもぬかりがありません。

経営コストの無駄を削り、無用の長物を情報の宝庫に変えられるかもしれない魔法、ダーク・アナリティクス。しかしデータには常にコンプライアンスの問題がつきもの。そのためダーク・アナリティクスをアウトソースするのであれば、信頼のおけるデータ分析企業とタッグを組むことも重要な要素です。

参考リンク

Systems Academy - Dark Data
Veritas.com

佐藤ちひろ

 
×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しくデータのじかんフィーチャーズ データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から『World DX Journal』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの『ブックレビュー』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい差が付くKPIマネジメント 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ” CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources越境者のためのお役立ち資料集 データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、面白くするDATA LOVERS データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データマネジメント・ラジオ by データ横丁 データのじかんNews データのじかんNews データ・情報は生もの!『DX Namamono information』 データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
close close