INDEX
みなさんは、「ダークデータ」とは何かご存じでしょうか。
簡単にいうと、分析者の目から隠れたデータを指し、データ分析において無視されている存在です。
ビッグデータの約80%を占めるという話もあり、データ活用時必ず「隠れる」ことになるダークデータ。本当に無視したままで良いのでしょうか? また我々は何をダークデータとし、どのデータを活用すべきなのでしょうか?
そのテーマを、インペリアル・カレッジ・ロンドン数学科名誉教授で王立統計学会前会長のデイヴィッド・J・ハンドが取り扱ったのが、『ダークデータ 隠れたデータこそが最強の武器になる』(以下、『ダークデータ』)です。
この記事では同書の書評を通して、ダークデータになぜ注目すべきなのか、ダークデータの発生にどう対処すべきなのかの一端をお伝えします!
ダークデータを意図なく無視することは、データ活用の結果を大きな間違いに導く可能性があります。
例えば『ダークデータ』第1章で紹介されているのが、1986年に生じ7人の命を奪ったスペースシャトル、チャレンジャー号爆発事故という痛ましい大惨事の原因に「ダークデータ」があったという事例です。
事故の直接的な原因は、固形燃料補助ロケットのつなぎ目を接合するゴム製の部品「Oリング」の弾性が低温環境によって失われ、燃料ガスが噴出したことにあります。そしてそれを予期するために必要な気温とOリングの不具合に関するデータは、ロケットブースター製造を担当したモートン・サイコオール社の手元にありました。
技術者たちは「打ち上げ時に不具合を起こしたOリングの数」と「飛行時の気温」のデータを照合して議論を行っていました。そして、そのデータにおいて不具合と気温の間に明確な相関関係は見られませんでした。
しかし彼らは見逃していたのです。
──「不具合が起こらなかったOリングの数」というダークデータを。Oリングに不具合がひとつも起こらなかったときのデータは、気温18℃以上に集中していました。
つまり、“明らかに気温とOリングの不具合には相関関係があった”のです。
このように議論のテーマに沿って扱うデータの枠組みを狭めてしまい、ダークデータが発生した結果、重要な事実さえも見えなくなってしまうということはよくあります。その理由の一つが、人間の思考には限界やバイアスがあることです(思考のバイアスへの対処法について詳しくはコチラ)。
『ダークデータ』は、「なぜダークデータが発生するのか」を15種類のDD(ダークデータ)タイプで分析し、それぞれの引き起こす問題とその対処法を解説することに、多くのページ数を割いています。
例えば、チャレンジャー号爆発事故のケースは、DDタイプ3「一部の例だけを選ぶ」及び、DDタイプ2「欠けていることが分かっていないデータ」に当たるとのこと。DDタイプはこの15種類だけに当てはまるわけではなく、無数に存在すると同書では語られています。
そもそも気づいていないもの、機器の不具合やヒューマンエラーにより失われたものを含め、“活用されていないデータすべて”がダークデータとなるため、その定義は明確に定められるようなものではないのです。それでも分類する意義は、データ活用の際よくあるDDタイプを振り返ることで、ある程度網羅的に「見逃しているデータはないか」チェックできる点にあるでしょう。
例えば、ある肺炎患者が肺炎で死亡する確率を予測する機械学習システムを用いた実験では、「患者に喘息の持病があった場合に死亡する確率が低く見積もられる」という事象が生じました。そこで原因を追及したところ判明したのが、「喘息持ちの患者は死亡リスクが極めて高いがゆえに集中治療室で高度な治療を受ける必要があり、そのおかげでかえって最終的な数値に表れる死亡リスクは下がっていた(※)」という事実でした。
これは、おそらくDDタイプ5「重要なことを見落とす」に該当します。もしもダークデータの存在に気づかず機械学習システムの予測を鵜呑みにしたら、多くの命が奪われる結果となるでしょう。人間の持つ“常識”とダークデータについての知識を組み合わせることで、与えられたデータからしか判断できないAIの弱点をカバーできるのです。
同書第2章では、「すべてのデータを集める」「一部のデータを集める」「条件を変えて実験する」の3パターンで、“そもそもデータをどう収集するのか”についても議題に挙げられています。
※…参考:デイヴィッド・J・ ハンド (著), 黒輪篤嗣 (翻訳) 『ダークデータ 隠れたデータこそが最強の武器になる Kindle版』河出書房新社、2021、ロケーション5405の2197
ダークデータがデータ分析の結果に悪影響を及ぼす例について取り上げてきました。「ダークデータはなるべくない方がいいんだな」と感じられたのではないでしょうか。しかし、ダークデータを完全に取り除くことは不可能です。
欠損値(NA)が含まれないデータを探す方が難しいでしょう。例えばアンケート調査において無回答や誤りは頻繁に発生しますし、そもそもアンケートの手法によって回答者が限定されてしまいます。Webアンケートなら「そのWebサイトを訪れさらに回答を承諾した人」以外の意見はダークデータとなってしまうのです。
そこでダークデータが発生したときに対処するための手法が『ダークデータ』第Ⅱ部「ダークデータを照らし出し、利用する」では紹介されています。ここでは「インピュテーション(欠測値補完)」や「ブースティング」などデータサイエンスの具体的手法にも話が及びます。専門的で難しく感じられるかもしれませんが、逆に言えばそれらの手法の意味やバリエーションについて、ある程度理解するチャンスでもあります。
同書によると、ダークデータに対する対処法は、そのダークデータが以下のいずれに当てはまるかによって異なります。
【1】見える従属データ
【2】見えない従属データ
【3】被従属データ
従属データとは、その値が生じる確率が、観測された値あるいは観測されない値に左右されるデータのこと。DDタイプと同じく、まずはこの定義に従って分類するだけでも、ダークデータ活用の道は開けるはずです。
また、「ダークデータは絶対悪」というわけではなく、実験において対象を無作為に比較したり、プライバシーを守ったりといった意図で情報を隠すことに意義が発生する場合もあります。『ダークデータ』終盤ではその手法についても記述されています。
データ活用において、「データの質」が重要だとよくいわれます。
『ダークデータ』は多くの方にとって、「データの質」についての解像度を大幅に高めてくれる書籍となるでしょう。見えているデータはほんの一部であり、パッと見て量や多様性が十分に見えても目的に対する質は不十分かもしれません。
同書冒頭で、一番伝えたいことは「真実は見かけとは違うかもしれない(※)」ということだと明言されています。目の前のデータがすべてだと信じすぎていないか、これからはぜひ分析の前に自分に問いかけてみてください。
※…参考:デイヴィッド・J・ ハンド (著), 黒輪篤嗣 (翻訳) 『ダークデータ 隠れたデータこそが最強の武器になる Kindle版』河出書房新社、2021、ロケーション5405の182
【参考資料】 ・デイヴィッド・J・ ハンド (著), 黒輪篤嗣 (翻訳) 『ダークデータ 隠れたデータこそが最強の武器になる Kindle版』河出書房新社、2021 ・NASAの“固執”が生んだチャレンジャー号の悲劇┃JBpress ・令和2年版 情報通信白書┃総務省
(宮田文机)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!