About us データのじかんとは?
INDEX
全社的なデータ活用に取り組むにあたって、「データレイク」に着目する企業は少なくないでしょう。
2010年に米Pentaho社のCTOジェームズ・ディクソン氏によって発表されたこのデータリポジトリ(保管庫)は、ビッグデータ活用が当たり前の選択肢になるにつれてその重要性を高めてきました。
しかし、注目が高まるにつれ、その特徴や役割がいまいち把握できず困っている方も増えているはず。この記事ではデータレイクとDWH(データウェアハウス)の違いなど、その理解に必要な知識をまとめてご紹介します。
データレイクは“あらゆるデータをそのままの形で保存しておくデータの格納庫”です。その大きな特徴はCSV、Excelなど行と列で構成されたリレーショナルデータだけでなく、画像・動画・音声などさまざまな非構造化データも扱うこと。各種センサから取得したログやGPSの位置情報などIoTで活用されるデータの取り扱いにも適しています。
データを素材のまま蓄積し、データを読み込む段階で構造を当てはめる(スキーマオンリード)データレイクの柔軟性の高さは、近年注目を集め続けている帰納的なアプローチでモデルを構築する機械学習とも相性抜群です。
その名の通り、データという名の魚が自然な状態で泳ぎ回る湖をイメージしていただけると良いでしょう。
データレイクはこのような特徴的な概念そのものを指し、適合するツールとしてHadoop、Azure、AWSなどがよく用いられています。
石油が19世紀と20世紀の工業革命を推進したように、21世紀のビジネスや経済において、データが現代社会の情報革命推進の原動力となっていることから、”データは新たな石油”とも言われています。
データを原状のまま蓄積するデータレイクは、石油の精製元である “油田”のようなもので、ビジネスや組織が対処しなければならない様々な課題・問題の解決、そして価値や創造を生み出すための資源として利用が可能です。
必要性、効果、メリットといった観点で、データレイクの主な特徴をいくつか紹介します。
データレイクは、構造化されているか否かに関わらず、異なるソースからのデータを一元的に保管することが可能です。これにより、データを必要とする部門や組織が必要な情報にすばやくアクセスできるようになります。
データレイクでは、データを予め特定の形式(スキーマ)に合わせる必要がないため、様々な種類のデータを保存できます。これは、データの形式が未知であったり、変化に対応するのに有利です。
データレイクは、データ量が増えてもその性能を保つことができる大規模なストレージシステムです。これは、ビジネスが成長し、データが増えてくるときに特に重要となります。具体的には、迅速なリソースのスケールアップまたはスケールダウン(ストレージ容量の増減)、データの種類や量に応じた最適なストレージソリューションの選択、並列処理、分散ストレージといったデータを効率的に処理するための技術です。
データレイクに保存された大量のデータは、ビッグデータ解析や機械学習アルゴリズムの試行に利用できます。これにより、ビジネスの意思決定をよりデータに基づいたものにし、新たな洞察や予測するためのノウハウを得ることができます。
データレイクは、従来のデータウェアハウスと比較してコスト効率が良いとされています。特にクラウドベースのデータレイクでは、必要に応じてストレージや計算能力をスケールアップ・ダウンすることが可能なため、必要なリソースだけを利用してコストを節約できます。
以上のような理由から、ビジネスや組織はデータレイクの導入を検討することがあります。ただし、データレイクの管理や運用は専門知識を必要とするため、導入の際にはそれを考慮する必要があります。
データレイクはさまざまな業種でビジネス価値を提供してくれます。以下にいくつかの例を挙げてみます。
ヘルスケア業界では、病院やクリニック、研究施設が生成する膨大な量のデータをデータレイクに格納しています。これにより、患者の治療履歴、臨床試験のデータ、遺伝子情報などを組み合わせて、よりパーソナライズされた治療法を開発したり、新薬の発見を加速したりすることが可能になります。
小売業者は、売上データ、在庫データ、顧客データ、ウェブサイトのクリックストリームデータなどをデータレイクに集めることで、顧客行動の洞察を深めたり、在庫管理を最適化したりすることができるようになり、パーソナライズされたマーケティングが実践できるようになります。
銀行や保険会社は、トランザクションデータ、顧客データ、リスクデータ、マーケットデータなどをデータレイクに格納することで、不正行為の検出、リスク管理の強化、顧客エンゲージメントの向上などに活用しています。
製造業では、機械や装置から収集されるIoTデータをデータレイクに保存し、生産ラインの効率性を向上させるための対策方法を得たり、製品の品質を向上させたり、予防保守を可能にしたりすることができます。
エネルギー企業は、センサーデータ、地質学データ、天候データなどをデータレイクに格納し、エネルギー生産の最適化、供給網の管理、リスクの識別と緩和などに活用しています。
これらの例は、データレイクがいかに多岐にわたる業界やビジネス機能に価値を提供できるかを示しています。ただし、これらの利点を最大限に活用するためには、データの組織化、分析、セキュリティに関する適切な戦略とツールが必要です。
データレイクの構築や構成には多くのアプローチがあります。その選択は、企業のビジネスニーズ、データの種類と量、使用するツールや技術、そしてセキュリティとコンプライアンスの要件に大きく影響されます。
以下に、一般的なデータレイクの構築・構成の種類を挙げてみます。
従来型のアプローチで、企業が自身のデータセンター内にデータレイクを構築する方法です。企業はフルコントロールを持つことができますが、スケーリングと維持にはコストと専門知識が必要です。
AWS、Google Cloud、Azureなどのクラウドサービスプロバイダーを利用してデータレイクを構築するアプローチです。スケーラビリティ、コスト効率性、そしてマネージドサービスによる運用の容易さが主な利点です。
一部のデータをオンプレミスに保持し、一部をクラウドに保存する方法です。これにより、セキュリティ、コンプライアンス、パフォーマンスの要件に基づいてデータの配置を最適化することができます。
複数のクラウドサービスプロバイダー間でデータを分散して管理するデータレイクの構築方法です。これは特定のクラウドプロバイダーへの依存を避けるため、または各プロバイダーの特定のサービスを利用するために選択されます。
それぞれの構築には、一長一短があります。そのため、選択する際にはビジネスニーズ、データの種類と量、コスト、セキュリティ要件などを考慮することが重要です。
データレイクの導入や運用はメリットだけでなく、課題や問題点といったデメリットも存在します。以下にその一部を挙げてみます。
データレイクには多種多様なデータが集められますが、その品質や形式が統一されていない場合、データを利用する際に大きな問題になることがあります。データが不完全であったり、不正確であったりすると、分析結果に影響を及ぼす可能性があります。
データレイクには企業の重要な情報が含まれるため、データのセキュリティとプライバシーが重要になります。不適切なアクセスやデータ漏洩を防ぐための適切なセキュリティ対策が必要になります。
データレイクが大きくなると、データの管理やガバナンス(統制)が難しくなります。データのどの部分が何に使用され、どの部分が重要であるかを理解するためのメタデータの管理や、データのライフサイクル管理などが重要になります。
データレイクの設計、実装、運用には特別な技術が必要です。しかし、これらが実践できるのはデータサイエンティストやデータエンジニアなどの専門家は限られており、人材やスキルの不足が課題となることがあります。
大量のデータを効率的にクエリ(データベースから特定の情報を取り出すための命令またはリクエスト)したり、分析したりするためには、高度なパフォーマンスが求められます。しかし、データレイクの規模が大きくなると、パフォーマンスの維持が難しくなることがあります。
適切なデータ管理やガバナンスがなされていないデータレイクは、「データ湖(データの品質が悪く、有用な情報を取り出すのが難しい状態)」に陥る可能性があります。この状態では、データレイクはただのデータの蓄積場所となり、その価値は大きく低下します。
データレイクとデータウェアハウスは“データを事前に整理するか否か”で分けられます。データレイクは先に述べた通り、生データをそのまま格納することを指向するデータリポジトリです。
一方、データウェアハウスは行と列で定義されたリレーショナルデータを分析することに最適化されており、格納前にデータのスキーマが定義されます(スキーマオンライト)。また構造化のコストがかからないことで、データレイクはデータウェアハウスよりも安価に大容量なものを用意することができます。
その代わり事前に整理されたデータが並ぶデータウェアハウスは、誰でもチャートやスプレッドシートでデータを用意に分析・加工することが可能です。反対に、データレイクのデータを適切に取り出し加工するためには専門の知識が必要になります。
そのままのデータが格納されたデータレイクはその分加工に手間がかかり、事前に加工・整理されているデータウェアハウスは制限がある代わりに誰でも扱いやすいというわけです。
まさに魚が自由に泳ぐ湖(レイク)と釣り上げられ整理して格納される倉庫(ウェアハウス)の関係に重ねられますね。データレイク・データウェアハウスとデータマートの違いについてはコチラの記事をご覧ください。
データレイクはデータをそのまま格納すると言いましたが、考えなしにただデータを格納すればいいわけではありません。
データが無作為に放り込まれ、もはやどこにどんなデータがあるのか、どう活用すればいいのかが分からなくなってしまった状態のデータレイクをデータスワンプ(データの沼)といいます。湖が淀んで内部がブラックボックス化した沼になってしまうというわけですね。
データスワンプ化を防ぐために必要だといわれているのが「データカタログ」です。データカタログはいわば“データの管理台帳”。分類番号や所有者などデータを特徴づけるメタデータを収集・蓄積し、データのアクセス性と品質を担保するのがその役割です。
データカタログの例として挙げられるのが日本政府が公開するオープンデータをカタログ化した「DATA.GO.JP」です。
「組織」「グループ」「タグ」など利用者に合わせた検索性をそなえたデータカタログと適切なメタデータを収集・追加・改定・削除できる仕組みを構築することが、データレイクを澄んだ湖として保つために必要です。
また、企業内のデータをデータカタログとして、ツールで利用するには、データウェアハウスとデータレイクを論理的に統合する『データ仮想化』といった技術の導入を必要とします。
『Denodo Platform』は散在する企業内データへのアクセスをより迅速にし、データガバナンスやセキュリティを担保した理想的なデータ統合基盤を構築し、Denodo と MotionBoard の連携により、データのカタログ化だけなく、様々なメリットを得ることが出来ます。
従来の各システムに対するデータ抽出・統合作業が不要となり、クイックにデータにアクセスできます。
データの形式、場所に関係なく、全てのエンタープライズシステムにまたがるデータを仮想で統合します。
利用可能な全ての仮想テーブルをカタログ化するため、検索・検出、管理するための一元化された安全なレイヤを提供します。
データレイクの役割や活用のポイント、DWHとの違いなど基本事項についてまとめてご紹介しました。2020年現在の世界のデータ総量は59ゼタバイト規模にまで膨れ上がっており(詳しくは『世界のデータ総量ってどのくらい?データ総量、データ通信量(IPトラフィック)の意味から最新の予測まで徹底解説!!』)、その多くを非構造データが占めるといわれています。
データドリブンな企業活動にもはやデータレイクは不可欠といっても過言ではないでしょう。
【参考資料】 ・データ・レイクとは何か? ガートナーが解説する企業導入・活用のポイント┃ビジネス+IT ・清水 響子「「データレイク」はデータウェアハウスとどこが違うの?」┃IT Leaders ・谷川 耕一「第3回DBオフライン開催します。お題は「データレイクって必要ですか?」」┃EnterPrizeZine ・“ビッグデータの湖”データレイクとは何だ? EMCが答える┃ASCII.jp×TECH ・DATAFLUCT「データサイエンティストのためのデータカタログ」┃note ・データレイクとは┃AWS ・データカタログ構築を成功に導く! 失敗する4つのアンチパターンとその回避策とは┃IT Leaders ・Narimichi Nakatani「最適なデータカタログを構築するには?」┃InformaticaBlog
(宮田文机)
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!