転送できない、保存できないほどの巨大なデータ!? データの量になやまされる温暖化研究の現場 | データで越境者に寄り添うメディア データのじかん
カテゴリー
キーワード

転送できない、保存できないほどの巨大なデータ!? データの量になやまされる温暖化研究の現場

         

NASAなどの研究機関の報告によれば、2018年は地球の全球平均気温が過去に最も高かった2016年、2017年、2015年に続く、過去4番目に温暖な年でした。天気に注目すると寒い冬のような気がしますが、地球全体で見た場合、温暖化は着実に進行しているクライシスなのです。

ここでもう一つのクライシスが、気候を研究している科学者の間に存在することはあまり知られていません。研究するためには元となるデータが重要ですが、その容量があまりに巨大になりすぎたために、それを転送することも保存することも難しくなっているという、切実な状況があるのです。

そんな科学の現場における「データ」の話題についてご紹介したいと思います。

 あまりに膨大な気候シミュレーションのデータ

温暖化研究で使われるデータはどれほど大きいのでしょうか?

地球の将来予測を研究している気候学者たちは「気候モデル」と呼ばれる、コンピューター内で地球の気候を再現した巨大なプログラムを利用しています。コンピューター上で再現された地球ですから、温室効果ガスの濃度を変えたり、遠い未来まで計算を伸ばしたりといった実験を自在に改変できるのが特徴で、世界各国のさまざまな研究機関が独自にモデルを開発して研究を進めています。

このコンピューター・モデルは気象予報を行うものと仕組みは共通しており、大気の流れ、海の動き、陸の状態、氷の様子などをすべて考慮して計算をおこないます。高気圧や低気圧の動きといった大きな現象から、雲の発達や、植物が生えては枯れるといった現象も再現されています。細かいものになると氷の上で水が溶けて小さな池ができあがり、その部分だけが黒くなるので日射のエネルギーを吸収するという現象までもがシミュレーションされているのです。

こうしたモデルの結果は、一般的に地球全体を格子状に区切ったデータとして出力されます。解像度はさまざまですが、すこし控えめな数字として緯度方向に180個、経度方向に360個、そして鉛直(高度)方向に30層ほどの大気のデータを扱っているものを想定すると、一つの格子点を最低4バイトの大きさで表現するとして:

4バイト x 360(経度) x 180 (緯度)x 30(高度)= 777万6000バイト

が、気温や気圧といった一種類の物理量のデータを保存するための大きさの単位になります。

ここに気温、風速、湿度などといった調べたい物理量の種類、どれだけの時間解像度のデータを何年分必要としているかが加わります。たとえば気温・気圧、東西風速、南北風速、湿度といった基本5要素を、一日一度の解像度で100年分利用したい場合にデータの大きさは:

4バイト x 360 (経度)x 180 (緯度)x 30 (高度)x 5要素 x 365日 x 100 年 = 1兆4191億2000万0000バイト

に膨れあがります。

しかしこれだけではありません。コンピューター・モデルの計算結果は一つだけでは不確定性が多いことが知られていますので、アンサンブルと呼ばれる、小さな摂動を加えたデータを多数利用することが奨励されています。また、温暖化をしている実験としていない実験などといったように、条件の違う実験シナリオをいくつも見る必要もあります。すると:

4バイト x 360 (経度)x 180 (緯度)x 30 (高度)x 5要素 x 365日 x 100 年

 x アンサンブル数 x シナリオ数

これがたった一つのモデルで必要なデータの量になります。しかもモデル間の相互比較をしたいならば、世界中の30の研究機関から公開されているデータを集めなければなりません。

世界中のコンピューターモデルを比較するという研究テーマを構想しても、準備のためだけにこの膨大なデータを集めなければいけないのです。そのダウンロードにかかる転送時間と保存のためのストレージの確保が、しだいに科学者の仕事を圧迫するようになっています。

ダウンロードにかかる日数は54日間!?

ここまでデータの規模が大きくなってくると、コンピューター・モデルを開発している一つ一つの研究機関で別個にデータを提供するのは煩雑になってきます。

そこで温暖化研究の場合は、モデル相互比較プロジェクト・CMIP6という枠組みのなかでデータをどのように作成し、提供するかが決められています。作成されたデータはESGF(Earth System Grid Federation)という、米国・欧州・豪州が連携して作っている分散型のデータグリッド上で提供されます。各研究機関はここにデータを提供し、わたしのような一般の研究者はESGFのデータノードのうち、もっとも近いものを利用してデータをダウンロードするわけです。

しかしそれも、簡単な話ではありません。たとえば先程のデータ量を、アンサンブルはすべてあきらめて、温暖化している場合としていない場合というたった2種類のシナリオに限定してダウンロードを試みたとしても、データ量は93TBにもなります。

ESGFノードと自分のデータサーバーとの間の転送スピードが常時20MB/秒を維持していたとしても、このデータ量を転送するには468万3096秒、およそ54日間かかる計算になるのです。時間も非常にかかりますが、それを保存するためのストレージの容量も、小規模な研究室では気軽に触れられるものではなくっています。

一昔前には、データの転送を待っているよりも、ハードディスクを抱えて飛行機に飛び乗り、提供元のデータセンターでコピーさせてもらうほうが早いし、コスト的に見合うのではないかという冗談を研究者同士で言い合っていました。

しかし最新のIPCC報告書のために準備されているモデル群になると、それでも追いつきません。データセンターをまるごと輸送してコピーしなければいけないほど、データは膨大になっているのです。

しかも、途中で接続が切れた場合のチェック、不良データの再ダウンロードなども含めると果てしない作業がデータの準備のためだけに必要になります。欧米のようにデータエンジニアと研究者との分業が進んでいない日本の場合、こうした作業はひとりひとりの研究者が努力でカバーしているのが現状です。

データをすべてみているひとがいない

似たような問題は、温暖化研究だけではなく、もっと身近なデータでも起こっています。

わたしたちの生活になじみのある気象衛星の「ひまわり」も、衛星からみえる地球全体をデータ化した「フルディスク」データの場合、最も細かい可視光のバンド3の解像度は0.5kmグリッド、画像にして22000×22000ピクセルのデータが10分おきにやってきます。フルディスクのデータを16バンドすべて集めれば、たった一日で最大200GBの容量に達します。

コンピューター・モデルや観測データの解像度が高まり、得られるデータがより洗練されることはもちろんよいことです。こうした最新のデータはかつてないペースで地球科学を発展させる原動力になっています。

しかし一方で、データがあまりに膨大になり、研究者が手軽にデータのすべてをダウンロードできなくなったことによって失われたものもあります。研究者は常にどの断面の研究をおこなうのかというトレードオフを迫られ、データの全体を俯瞰することは極めて難しくなっているのです。誰一人、データを端から端までみることができていないなかで、学問を前進させなければいけません。

現状、これが問題になっていないのは、世界中の科学者が問題を小さく分け、分業することによって知識を集結しているからです。しかしいまのペースでデータの容量が増えるならば、それすらも追いつかない日が来ないとも限りません。

こうした状況に対応するために、優先度の高いデータは国内でアーカイブして利便性を高めるDIAS(データ統合・解析システム)という取り組みも行われていますし、基本的なデータ解析をデータセンター側で処理してキャッシュしておく新技術の開発も行われています。

データは多ければ多いほどいいと思うかもしれません。しかし膨大なデータにも、それにともなう苦労と、それを乗り越えるための現場の努力があるのです。

 

堀正岳

「人生を変える小さな習慣」をテーマとしたブログ、Lifehacking.jp 管理人として、仕事術、ライフハック、テクノロジー、文具、ソーシャルメディアなどについて執筆中。2011年アルファブロガー・アワード受賞。Evernote ライフスタイルアンバサダー。ScanSnapアンバサダー。本業は北極の科学者。

×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しくデータのじかんフィーチャーズ データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から『World DX Journal』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの『ブックレビュー』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい差が付くKPIマネジメント 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ” CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources越境者のためのお役立ち資料集 データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、面白くするDATA LOVERS データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データマネジメント・ラジオ by データ横丁 データのじかんNews データのじかんNews データ・情報は生もの!『DX Namamono information』 データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
close close