転送できない、保存できないほどの巨大なデータ！？データの量になやまされる温暖化研究の現場

データのじかんトップ > 新着記事一覧 > テクノロジー > 転送できない、保存できないほどの巨大なデータ！？データの量になやまされる温暖化研究の現場

ビジネス

更新：2019.03.06
公開：2019.03.06

#編集部ピックアップ

INDEX

あまりに膨大な気候シミュレーションのデータ
ダウンロードにかかる日数は54日間！？
データをすべてみているひとがいない

NASAなどの研究機関の報告によれば、2018年は地球の全球平均気温が過去に最も高かった2016年、2017年、2015年に続く、過去４番目に温暖な年でした。天気に注目すると寒い冬のような気がしますが、地球全体で見た場合、温暖化は着実に進行しているクライシスなのです。

ここでもう一つのクライシスが、気候を研究している科学者の間に存在することはあまり知られていません。研究するためには元となるデータが重要ですが、その容量があまりに巨大になりすぎたために、それを転送することも保存することも難しくなっているという、切実な状況があるのです。

そんな科学の現場における「データ」の話題についてご紹介したいと思います。

あまりに膨大な気候シミュレーションのデータ

温暖化研究で使われるデータはどれほど大きいのでしょうか？

地球の将来予測を研究している気候学者たちは「気候モデル」と呼ばれる、コンピューター内で地球の気候を再現した巨大なプログラムを利用しています。コンピューター上で再現された地球ですから、温室効果ガスの濃度を変えたり、遠い未来まで計算を伸ばしたりといった実験を自在に改変できるのが特徴で、世界各国のさまざまな研究機関が独自にモデルを開発して研究を進めています。

このコンピューター・モデルは気象予報を行うものと仕組みは共通しており、大気の流れ、海の動き、陸の状態、氷の様子などをすべて考慮して計算をおこないます。高気圧や低気圧の動きといった大きな現象から、雲の発達や、植物が生えては枯れるといった現象も再現されています。細かいものになると氷の上で水が溶けて小さな池ができあがり、その部分だけが黒くなるので日射のエネルギーを吸収するという現象までもがシミュレーションされているのです。

こうしたモデルの結果は、一般的に地球全体を格子状に区切ったデータとして出力されます。解像度はさまざまですが、すこし控えめな数字として緯度方向に180個、経度方向に360個、そして鉛直（高度）方向に30層ほどの大気のデータを扱っているものを想定すると、一つの格子点を最低4バイトの大きさで表現するとして：

4バイト x 360（経度） x 180 （緯度）x 30（高度）= 777万6000バイト

が、気温や気圧といった一種類の物理量のデータを保存するための大きさの単位になります。

ここに気温、風速、湿度などといった調べたい物理量の種類、どれだけの時間解像度のデータを何年分必要としているかが加わります。たとえば気温・気圧、東西風速、南北風速、湿度といった基本５要素を、一日一度の解像度で100年分利用したい場合にデータの大きさは：

4バイト x 360 （経度）x 180 （緯度）x 30 （高度）x 5要素 x 365日 x 100 年 = 1兆4191億2000万0000バイト

に膨れあがります。

しかしこれだけではありません。コンピューター・モデルの計算結果は一つだけでは不確定性が多いことが知られていますので、アンサンブルと呼ばれる、小さな摂動を加えたデータを多数利用することが奨励されています。また、温暖化をしている実験としていない実験などといったように、条件の違う実験シナリオをいくつも見る必要もあります。すると：

4バイト x 360 （経度）x 180 （緯度）x 30 （高度）x 5要素 x 365日 x 100 年

x アンサンブル数 x シナリオ数

これがたった一つのモデルで必要なデータの量になります。しかもモデル間の相互比較をしたいならば、世界中の30の研究機関から公開されているデータを集めなければなりません。

世界中のコンピューターモデルを比較するという研究テーマを構想しても、準備のためだけにこの膨大なデータを集めなければいけないのです。そのダウンロードにかかる転送時間と保存のためのストレージの確保が、しだいに科学者の仕事を圧迫するようになっています。

ダウンロードにかかる日数は54日間！？

ここまでデータの規模が大きくなってくると、コンピューター・モデルを開発している一つ一つの研究機関で別個にデータを提供するのは煩雑になってきます。

そこで温暖化研究の場合は、モデル相互比較プロジェクト・CMIP6という枠組みのなかでデータをどのように作成し、提供するかが決められています。作成されたデータはESGF（Earth System Grid Federation）という、米国・欧州・豪州が連携して作っている分散型のデータグリッド上で提供されます。各研究機関はここにデータを提供し、わたしのような一般の研究者はESGFのデータノードのうち、もっとも近いものを利用してデータをダウンロードするわけです。

しかしそれも、簡単な話ではありません。たとえば先程のデータ量を、アンサンブルはすべてあきらめて、温暖化している場合としていない場合というたった２種類のシナリオに限定してダウンロードを試みたとしても、データ量は93TBにもなります。

ESGFノードと自分のデータサーバーとの間の転送スピードが常時20MB/秒を維持していたとしても、このデータ量を転送するには468万3096秒、およそ54日間かかる計算になるのです。時間も非常にかかりますが、それを保存するためのストレージの容量も、小規模な研究室では気軽に触れられるものではなくっています。

一昔前には、データの転送を待っているよりも、ハードディスクを抱えて飛行機に飛び乗り、提供元のデータセンターでコピーさせてもらうほうが早いし、コスト的に見合うのではないかという冗談を研究者同士で言い合っていました。

しかし最新のIPCC報告書のために準備されているモデル群になると、それでも追いつきません。データセンターをまるごと輸送してコピーしなければいけないほど、データは膨大になっているのです。

しかも、途中で接続が切れた場合のチェック、不良データの再ダウンロードなども含めると果てしない作業がデータの準備のためだけに必要になります。欧米のようにデータエンジニアと研究者との分業が進んでいない日本の場合、こうした作業はひとりひとりの研究者が努力でカバーしているのが現状です。

データをすべてみているひとがいない

似たような問題は、温暖化研究だけではなく、もっと身近なデータでも起こっています。

わたしたちの生活になじみのある気象衛星の「ひまわり」も、衛星からみえる地球全体をデータ化した「フルディスク」データの場合、最も細かい可視光のバンド３の解像度は0.5kmグリッド、画像にして22000×22000ピクセルのデータが10分おきにやってきます。フルディスクのデータを16バンドすべて集めれば、たった一日で最大200GBの容量に達します。

コンピューター・モデルや観測データの解像度が高まり、得られるデータがより洗練されることはもちろんよいことです。こうした最新のデータはかつてないペースで地球科学を発展させる原動力になっています。

しかし一方で、データがあまりに膨大になり、研究者が手軽にデータのすべてをダウンロードできなくなったことによって失われたものもあります。研究者は常にどの断面の研究をおこなうのかというトレードオフを迫られ、データの全体を俯瞰することは極めて難しくなっているのです。誰一人、データを端から端までみることができていないなかで、学問を前進させなければいけません。

現状、これが問題になっていないのは、世界中の科学者が問題を小さく分け、分業することによって知識を集結しているからです。しかしいまのペースでデータの容量が増えるならば、それすらも追いつかない日が来ないとも限りません。

こうした状況に対応するために、優先度の高いデータは国内でアーカイブして利便性を高めるDIAS（データ統合・解析システム）という取り組みも行われていますし、基本的なデータ解析をデータセンター側で処理してキャッシュしておく新技術の開発も行われています。

データは多ければ多いほどいいと思うかもしれません。しかし膨大なデータにも、それにともなう苦労と、それを乗り越えるための現場の努力があるのです。

（堀正岳）

「人生を変える小さな習慣」をテーマとしたブログ、Lifehacking.jp 管理人として、仕事術、ライフハック、テクノロジー、文具、ソーシャルメディアなどについて執筆中。2011年アルファブロガー・アワード受賞。Evernote ライフスタイルアンバサダー。ScanSnapアンバサダー。本業は北極の科学者。