Share!

全社的なデータ活用に取り組むにあたって、「データレイク」に着目する企業は少なくないでしょう。

2010年に米Pentaho社のCTOジェームズ・ディクソン氏によって発表されたこのデータリポジトリ(保管庫)は、ビッグデータ活用が当たり前の選択肢になるにつれてその重要性を高めてきました。

しかし、注目が高まるにつれ、その特徴や役割がいまいち把握できず困っている方も増えているはず。この記事ではデータレイクとDWH(データウェアハウス)の違いなど、その理解に必要な知識をまとめてご紹介します。

データレイクとは“あらゆるデータをそのまま保存する格納庫”

データレイクは“あらゆるデータをそのままの形で保存しておくデータの格納庫”です。その大きな特徴はCSV、Excelなど行と列で構成されたリレーショナルデータだけでなく、画像・動画・音声などさまざまな非構造化データも扱うこと。各種センサから取得したログやGPSの位置情報などIoTで活用されるデータの取り扱いにも適しています。

データを素材のまま蓄積し、データを読み込む段階で構造を当てはめる(スキーマオンリード)データレイクの柔軟性の高さは、近年注目を集め続けている帰納的なアプローチでモデルを構築する機械学習とも相性抜群です。

その名の通り、データという名の魚が自然な状態で泳ぎ回る湖をイメージしていただけると良いでしょう。

データレイクはこのような特徴的な概念そのものを指し、適合するツールとしてHadoop、Azure、AWSなどがよく用いられています。

データレイクとデータウェアハウスの違いは“データを事前に整理するか否か”

データレイクとデータウェアハウスは“データを事前に整理するか否か”で分けられます。データレイクは先に述べた通り、生データをそのまま格納することを指向するデータリポジトリです。

一方、データウェアハウスは行と列で定義されたリレーショナルデータを分析することに最適化されており、格納前にデータのスキーマが定義されます(スキーマオンライト)。
また構造化のコストがかからないことで、データレイクはデータウェアハウスよりも安価に大容量なものを用意することができます。

その代わり事前に整理されたデータが並ぶデータウェアハウスは、誰でもチャートやスプレッドシートでデータを用意に分析・加工することが可能です。反対に、データレイクのデータを適切に取り出し加工するためには専門の知識が必要になります。

そのままのデータが格納されたデータレイクはその分加工に手間がかかり、事前に加工・整理されているデータウェアハウスは制限がある代わりに誰でも扱いやすいというわけです。

まさに魚が自由に泳ぐ湖(レイク)と釣り上げられ整理して格納される倉庫(ウェアハウス)の関係に重ねられますね。データレイク・データウェアハウスとデータマートの違いについてはコチラの記事をご覧ください。

“データの沼”に陥らないために……データカタログを活用しよう

データレイクはデータをそのまま格納すると言いましたが、考えなしにただデータを格納すればいいわけではありません。

データが無作為に放り込まれ、もはやどこにどんなデータがあるのか、どう活用すればいいのかが分からなくなってしまった状態のデータレイクをデータスワンプ(データの沼)といいます。湖が淀んで内部がブラックボックス化した沼になってしまうというわけですね。

データスワンプ化を防ぐために必要だといわれているのが「データカタログ」です。データカタログはいわば“データの管理台帳”。分類番号や所有者などデータを特徴づけるメタデータを収集・蓄積し、データのアクセス性と品質を担保するのがその役割です。

データカタログの例として挙げられるのが日本政府が公開するオープンデータをカタログ化した「DATA.GO.JP」です。

「組織」「グループ」「タグ」など利用者に合わせた検索性をそなえたデータカタログと適切なメタデータを収集・追加・改定・削除できる仕組みを構築することが、データレイクを澄んだ湖として保つために必要です。

終わりに

データレイクの役割や活用のポイント、DWHとの違いなど基本事項についてまとめてご紹介しました。2020年現在の世界のデータ総量は59ゼタバイト規模にまで膨れ上がっており(詳しくは『世界のデータ総量ってどのくらい?データ総量、データ通信量(IPトラフィック)の意味から最新の予測まで徹底解説!!』)、その多くを非構造データが占めるといわれています。

データドリブンな企業活動にもはやデータレイクは不可欠といっても過言ではないでしょう。

【参考資料】
・データ・レイクとは何か? ガートナーが解説する企業導入・活用のポイント┃ビジネス+IT
・清水 響子「「データレイク」はデータウェアハウスとどこが違うの?」┃IT Leaders
・谷川 耕一「第3回DBオフライン開催します。お題は「データレイクって必要ですか?」」┃EnterPrizeZine
・“ビッグデータの湖”データレイクとは何だ? EMCが答える┃ASCII.jp×TECH
・DATAFLUCT「データサイエンティストのためのデータカタログ」┃note
・データレイクとは┃AWS
・データカタログ構築を成功に導く! 失敗する4つのアンチパターンとその回避策とは┃IT Leaders
・Narimichi Nakatani「最適なデータカタログを構築するには?」┃InformaticaBlog

宮田文机

Eye Catch Design by C.G.

「データ活用」ランキング

「テクノロジー」ランキング

人気のカテゴリ