データレイクとは?データウェアハウスとの違いやメリット・デメリットをわかりやすく解説 | データで越境者に寄り添うメディア データのじかん
会員ページへmember

About us データのじかんとは?

データレイクとは?データウェアハウスとの違いやメリット・デメリットをわかりやすく解説

         

全社的なデータ活用に取り組むにあたって、「データレイク」に着目する企業は少なくないでしょう。

2010年に米Pentaho社のCTOジェームズ・ディクソン氏によって発表されたこのデータリポジトリ(保管庫)は、ビッグデータ活用が当たり前の選択肢になるにつれてその重要性を高めてきました。

しかし、注目が高まるにつれ、その特徴や役割がいまいち把握できず困っている方も増えているはず。この記事ではデータレイクとDWH(データウェアハウス)の違いなど、その理解に必要な知識をまとめてご紹介します。

データレイクとは“あらゆるデータをそのまま保存する格納庫”

データレイクは“あらゆるデータをそのままの形で保存しておくデータの格納庫”です。その大きな特徴はCSV、Excelなど行と列で構成されたリレーショナルデータだけでなく、画像・動画・音声などさまざまな非構造化データも扱うこと。各種センサから取得したログやGPSの位置情報などIoTで活用されるデータの取り扱いにも適しています。

データを素材のまま蓄積し、データを読み込む段階で構造を当てはめる(スキーマオンリード)データレイクの柔軟性の高さは、近年注目を集め続けている帰納的なアプローチでモデルを構築する機械学習とも相性抜群です。

その名の通り、データという名の魚が自然な状態で泳ぎ回る湖をイメージしていただけると良いでしょう。

データレイクはこのような特徴的な概念そのものを指し、適合するツールとしてHadoop、Azure、AWSなどがよく用いられています。

また、下記にて、関連語句との違いについても紹介します。

  • データレイクとデータベースの違い
  • データレイクとデータウェアハウスの違い
  • データレイクとデータマートの違い

それぞれ解説します。

データレイクとデータベースの違い

データレイクとデータベースの違いは、“構造化が含まれるかどうか”です。

データレイクはあらゆるソースからデータを格納することができ、データを取り出す際には構造化が行われますが、データベースはスキーマが必要となる可能性があるので、半構造化データや非構造化データを含めることができないからです。

レポート作成機能に関しては、両者ともに使用できないです。

データレイクとデータウェアハウスの違い

データレイクとデータウェアハウスは“データを事前に整理するか否か”で分けられます。データレイクは先に述べた通り、生データをそのまま格納することを指向するデータリポジトリです。

一方、データウェアハウスは行と列で定義されたリレーショナルデータを分析することに最適化されており、格納前にデータのスキーマが定義されます(スキーマオンライト)。また構造化のコストがかからないことで、データレイクはデータウェアハウスよりも安価に大容量なものを用意することができます。

その代わり事前に整理されたデータが並ぶデータウェアハウスは、誰でもチャートやスプレッドシートでデータを用意し分析・加工が可能です。反対に、データレイクのデータを適切に取り出し加工するためには専門の知識が必要になります。

そのままのデータが格納されたデータレイクはその分加工に手間がかかり、事前に加工・整理されているデータウェアハウスは制限がある代わりに誰でも扱いやすいというわけです。

まさに魚が自由に泳ぐ湖(レイク)と釣り上げられ整理して格納される倉庫(ウェアハウス)の関係に重ねられますね。

データレイクとデータマートの違い

データレイクとデータマートの違いは、“データを用途に応じて抽出・保管しているか否か”です。

データマートとは、データの利用部門や用途・目的に応じて必要なものを抽出して、利用しやすいように加工した上で格納する場所を指すので、様々な形や性格のローデータをそのまま保管するような(湖みたいな)イメージのデータレイクとは、情報の質が異なります。

前述したような形で言うなれば、魚が自由に泳ぐ湖が“データレイク”、釣り上げられ整理して格納される倉庫を“データウェアハウス”、倉庫内の魚をさらに観賞用や食用に整理し格納したものを“データマート”というイメージですね。

データレイク・データウェアハウスとデータマートの違いについてもっと知りたい方は下記のデータのじかんをご覧ください。

データレイクの5つのメリットとは?

石油が19世紀と20世紀の工業革命を推進したように、21世紀のビジネスや経済において、データが現代社会の情報革命推進の原動力となっていることから、”データは新たな石油”とも言われています。

データを原状のまま蓄積するデータレイクは、石油の精製元である “油田”のようなもので、ビジネスや組織が対処しなければならない様々な課題・問題の解決、そして価値や創造を生み出すための資源として利用が可能です。

本章では、データレイクのメリットを5つほど紹介します。

  • データの一元化
  • データ連携への柔軟性
  • スケーラビリティ
  • データ分析と機械学習の機会
  • コスト効率

それでは順に解説します。

メリット①データの一元化

データレイクは、構造化されているか否かに関わらず、異なるソースからのデータを一元的に保管することが可能です。これにより、データを必要とする部門や組織が必要な情報にすばやくアクセスできるようになります。

メリット②データ連携への柔軟性

データレイクでは、データを予め特定の形式(スキーマ)に合わせる必要がないため、様々な種類のデータを保存できます。これは、データの形式が未知であったり、変化に対応するのに有利です。

メリット③スケーラビリティ

データレイクは、データ量が増えてもその性能を保つことができる大規模なストレージシステムです。これは、ビジネスが成長し、データが増えてくるときに特に重要となります。具体的には、迅速なリソースのスケールアップまたはスケールダウン(ストレージ容量の増減)、データの種類や量に応じた最適なストレージソリューションの選択、並列処理、分散ストレージといったデータを効率的に処理するための技術です。

メリット④データ分析と機械学習の機会

データレイクに保存された大量のデータは、ビッグデータ解析や機械学習アルゴリズムの試行に利用できます。これにより、ビジネスの意思決定をよりデータに基づいたものにし、新たな洞察や予測するためのノウハウを得ることができます。

メリット⑤コスト効率

データレイクは、従来のデータウェアハウスと比較してコスト効率が良いとされています。特にクラウドベースのデータレイクでは、必要に応じてストレージや計算能力をスケールアップ・ダウンすることが可能なため、必要なリソースだけを利用してコストを節約できます。
以上のような理由から、ビジネスや組織はデータレイクの導入を検討することがあります。ただし、データレイクの管理や運用は専門知識を必要とするため、導入の際にはそれを考慮する必要があります。

データレイクの6つのデメリットとは?

データレイクの6つのデメリットとは?

データレイクの導入や運用はメリットだけでなく、課題や問題点といったデメリットも存在します。以下にその一部を挙げてみます。

  • データの品質と統一性
  • データのセキュリティとプライバシー
  • データの管理とガバナンス
  • 人材・スキル不足
  • パフォーマンス
  • 「データ沼」となるリスク

順に解説します。

デメリット①データの品質と統一性

データレイクには多種多様なデータが集められますが、その品質や形式が統一されていない場合、データを利用する際に大きな問題になることがあります。データが不完全であったり、不正確であったりすると、分析結果に影響を及ぼす可能性があります。

デメリット②データのセキュリティとプライバシー

データレイクには企業の重要な情報が含まれるため、データのセキュリティとプライバシーが重要になります。不適切なアクセスやデータ漏洩を防ぐための適切なセキュリティ対策が必要になります。

デメリット③データの管理とガバナンス

データレイクが大きくなると、データの管理やガバナンス(統制)が難しくなります。データのどの部分が何に使用され、どの部分が重要であるかを理解するためのメタデータの管理や、データのライフサイクル管理などが重要になります。

デメリット④人材・スキル不足

データレイクの設計、実装、運用には特別な技術が必要です。しかし、これらが実践できるのはデータサイエンティストやデータエンジニアなどの専門家は限られており、人材やスキルの不足が課題となることがあります。

デメリット⑤パフォーマンス

大量のデータを効率的にクエリ(データベースから特定の情報を取り出すための命令またはリクエスト)したり、分析したりするためには、高度なパフォーマンスが求められます。しかし、データレイクの規模が大きくなると、パフォーマンスの維持が難しくなることがあります。

デメリット⑥「データの沼」となるリスク

適切なデータ管理やガバナンスがなされていないデータレイクは、「データ湖(データの品質が悪く、有用な情報を取り出すのが難しい状態)」に陥る可能性があります。この状態では、データレイクはただのデータの蓄積場所となり、その価値は大きく低下します。

【業種別】ビジネスにおけるデータレイクの活用事例とは

【業種別】ビジネスにおけるデータレイクの活用事例とは

データレイクはさまざまな業種でビジネス価値を提供してくれます。以下にいくつかの例を挙げてみます。

  • ヘルスケア業
  • 小売業
  • 金融業
  • 製造業
  • エネルギー業

ぜひ参考にしてください。

活用事例①ヘルスケア業

ヘルスケア業界では、病院やクリニック、研究施設が生成する膨大な量のデータをデータレイクに格納しています。これにより、患者の治療履歴、臨床試験のデータ、遺伝子情報などを組み合わせて、よりパーソナライズされた治療法を開発したり、新薬の発見を加速したりすることが可能になります。

活用事例②小売業

小売業者は、売上データ、在庫データ、顧客データ、ウェブサイトのクリックストリームデータなどをデータレイクに集めることで、顧客行動の洞察を深めたり、在庫管理を最適化したりすることができるようになり、パーソナライズされたマーケティングが実践できるようになります。

活用事例③金融業

銀行や保険会社は、トランザクションデータ、顧客データ、リスクデータ、マーケットデータなどをデータレイクに格納することで、不正行為の検出、リスク管理の強化、顧客エンゲージメントの向上などに活用しています。

活用事例④製造業

製造業では、機械や装置から収集されるIoTデータをデータレイクに保存し、生産ラインの効率性を向上させるための対策方法を得たり、製品の品質を向上させたり、予防保守を可能にしたりすることができます。

活用事例⑤エネルギー業界

エネルギー企業は、センサーデータ、地質学データ、天候データなどをデータレイクに格納し、エネルギー生産の最適化、供給網の管理、リスクの識別と緩和などに活用しています。
これらの例は、データレイクがいかに多岐にわたる業界やビジネス機能に価値を提供できるかを示しています。ただし、これらの利点を最大限に活用するためには、データの組織化、分析、セキュリティに関する適切な戦略とツールが必要です。

データレイクの構築・構成の種類

データレイクの構築・構成の種類

データレイクの構築や構成には多くのアプローチがあります。その選択は、企業のビジネスニーズ、データの種類と量、使用するツールや技術、そしてセキュリティとコンプライアンスの要件に大きく影響されます。

以下に、一般的なデータレイクの構築・構成の種類を挙げてみます。

  • オンプレミスデータレイク
  • クラウドベースのデータレイク
  • ハイブリッドデータレイク
  • マルチクラウドデータレイク

順に紹介しますので、参考にしてください。

①オンプレミスデータレイク

従来型のアプローチで、企業が自身のデータセンター内にデータレイクを構築する方法です。企業はフルコントロールを持つことができますが、スケーリングと維持にはコストと専門知識が必要です。

②クラウドベースのデータレイク

AWS、Google Cloud、Azureなどのクラウドサービスプロバイダーを利用してデータレイクを構築するアプローチです。スケーラビリティ、コスト効率性、そしてマネージドサービスによる運用の容易さが主な利点です。

③ハイブリッドデータレイク

一部のデータをオンプレミスに保持し、一部をクラウドに保存する方法です。これにより、セキュリティ、コンプライアンス、パフォーマンスの要件に基づいてデータの配置を最適化することができます。

④マルチクラウドデータレイク

複数のクラウドサービスプロバイダー間でデータを分散して管理するデータレイクの構築方法です。これは特定のクラウドプロバイダーへの依存を避けるため、または各プロバイダーの特定のサービスを利用するために選択されます。
それぞれの構築には、一長一短があります。そのため、選択する際にはビジネスニーズ、データの種類と量、コスト、セキュリティ要件などを考慮することが重要です。

“データの沼”に陥らないために……データカタログを活用しよう

“データの沼”に陥らないために

データレイクはデータをそのまま格納すると言いましたが、考えなしにただデータを格納すればいいわけではありません。

データが無作為に放り込まれ、もはやどこにどんなデータがあるのか、どう活用すればいいのかが分からなくなってしまった状態のデータレイクをデータスワンプ(データの沼)といいます。湖が淀んで内部がブラックボックス化した沼になってしまうというわけですね。

データスワンプ化を防ぐために必要だといわれているのが「データカタログ」です。データカタログはいわば“データの管理台帳”。分類番号や所有者などデータを特徴づけるメタデータを収集・蓄積し、データのアクセス性と品質を担保するのがその役割です。

データカタログの例として挙げられるのが日本政府が公開するオープンデータをカタログ化した「DATA.GO.JP」です。

「組織」「グループ」「タグ」など利用者に合わせた検索性をそなえたデータカタログと適切なメタデータを収集・追加・改定・削除できる仕組みを構築することが、データレイクを澄んだ湖として保つために必要です。

また、企業内のデータをデータカタログとして、ツールで利用するには、データウェアハウスとデータレイクを論理的に統合する『データ仮想化』といった技術の導入を必要とします。

Denodo Platform』は散在する企業内データへのアクセスをより迅速にし、データガバナンスやセキュリティを担保した理想的なデータ統合基盤を構築し、Denodo と MotionBoard の連携により、データのカタログ化だけなく、様々なメリットを得ることが出来ます。

①クイックなデータアクセス

従来の各システムに対するデータ抽出・統合作業が不要となり、クイックにデータにアクセスできます。

②データの集中管理とデータ統合

データの形式、場所に関係なく、全てのエンタープライズシステムにまたがるデータを仮想で統合します。

③安全なデータ管理と負荷削減

利用可能な全ての仮想テーブルをカタログ化するため、検索・検出、管理するための一元化された安全なレイヤを提供します。

終わりに

データレイクの役割や活用のポイント、DWHとの違いなど基本事項についてまとめてご紹介しました。2020年現在の世界のデータ総量は59ゼタバイト規模にまで膨れ上がっており(詳しくは『世界のデータ総量ってどのくらい?データ総量、データ通信量(IPトラフィック)の意味から最新の予測まで徹底解説!!』)、その多くを非構造データが占めるといわれています。

データドリブンな企業活動にもはやデータレイクは不可欠といっても過言ではないでしょう。

宮田文机

 

参照元

データ・レイクとは何か? ガートナーが解説する企業導入・活用のポイント┃ビジネス+IT
・清水 響子「「データレイク」はデータウェアハウスとどこが違うの?」┃IT Leaders
・谷川 耕一「第3回DBオフライン開催します。お題は「データレイクって必要ですか?」」┃EnterPrizeZine
・“ビッグデータの湖”データレイクとは何だ? EMCが答える┃ASCII.jp×TECH
・DATAFLUCT「データサイエンティストのためのデータカタログ」┃note
・データレイクとは┃AWS
・データカタログ構築を成功に導く! 失敗する4つのアンチパターンとその回避策とは┃IT Leaders
・Narimichi Nakatani「最適なデータカタログを構築するには?」┃InformaticaBlog

 

データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

データのじかん会員なら、
全てのコンテンツが
見放題・ダウンロードし放題
データのじかん会員でできること
  • 会員限定資料がすべてダウンロードできる
  • セミナー開催を優先告知
  • 厳選情報をメルマガで確認
会員登録する
データのじかん会員について詳しく知りたい方
close close