組織にとってのデータの価値が高まるとともに重要性を高めてきたのが「データモデリング」です。ビッグデータやIoTなど、組織にとって扱うデータの種類が増え、技術やツールが多様化する中で、注目を集めるようになったデータモデリングの手法として「データボルト(Data Vault)」が挙げられます。
そのメリットや特性、ほかのデータモデリング手法との違いについて見ていきましょう!
データボルト(Data Vault)を直訳すると、「データの金庫室」となります。このモデルを開発したのはデータアーキテクトで、現在はデータボルトアーキテクチャのCEOを務めるDan Linstedt(ダン・リンステッド)氏。彼がリンクドインに掲載した記事『Defining Data Vault 1.0 and 2.0 for Business』(ビジネスに向けたデータボルト1.0と2.0の定義)にて、BIにおけるデータボルトシステムの真の名前は、以下であったと明記されています。
common foundational warehouse modeling, methodology, architecture, and implementation
= ウェアハウスモデリングの共通基盤となるモデリング・メソドロジー・アーキテクチャ、および実装
特にエンタープライズ企業向けのデータウェアハウスやデータレイクハウス構築において大きな効果を発揮することが期待されるデータボルト。2013年に、ビッグデータやNoSQL、IoTなどのリアルタイムデータ、構造化データ/非構造化データ双方の取り扱いといった課題に対応すべく、アップデート版の『Data Vault 2.0』がリリースされ、それが2023年4月現在もスタンダードとなっています。
Data Vault 2.0のメリットとしては以下のようなものが挙げられます。
・アジャイルで変化に強いデータウェアハウスが構築できる
・複数のデータソースに対応可能な高い柔軟性
・テラバイト、ペタバイト規模のビッグデータを扱えるスケーラビリティ
・生データ・メタデータを保持するため、監査制・追跡性が高い
ここからは、具体的なデータボルトのモデリングに話を進めましょう。
データボルトモデリングでは、以下の3つの構成要素が用いられます。
Hub(ハブ):顧客情報や製品情報、店舗情報などビジネスの中心となるデータを格納するテーブル
Link(リンク):ハブ間の関係性を格納するテーブル。
Satellite(サテライト):親となるハブまたはリンクのエンティティにまつわる具体的なデータをすべて格納するテーブル
データボルト2.0では、シーケンス番号の代わりにハッシュキーを主キーとして用いることで、より効率性の高いデータプロセスや高い柔軟性を手にしました。3NF(第3正規形モデル)における正規化のメリットと、ディメンショナルモデリング・スタースキーマにおける構造化のメリットの間に立って、柔軟性とデータ統合性を両立するようなモデルと言い換えられるかもしれません。
また、データボルトは生データを統合せず、そのまま格納するデータモデルです。その結果として、データ項目の増減やデータ元システムの追加が行われても、そのままの形でロードできる柔軟性が実現できるのです。安価で大容量のストレージが手に入るようになったことで、データレイク・データウェアハウス・データマートの役割が拡張・変化している現代において、データボルトが注目を集める理由はここにもあります。
『Data Vault 2.0 and Methodology』(データボルト2.0とメソドロジー<方法論>)と題したリンクドインの記事において、ダン・リンステッド氏は、データボルト2.0のメソドロジー(※)は「CMMIフレームワーク」とともにスタートしたと明記しています。
CMMIとは、「Capability Maturity Model Integration(能力成熟度モデル統合)」の略で、プロジェクトマネジメントにおける組織のベストプラクティスを定義し、その成熟度を5段階で評価するモデルです。CMMIで再高の成熟度にあたるレベル5は「Optimizing(最適化されている)」段階であり、組織が、そのプロジェクトの結果と過程を定量的に評価・管理したうえで、改善のサイクルを継続的に回せる段階を意味します。
データボルトはその真の名称が示す通り、単なるデータモデリングのフレームワークにとどまらず、ひとつのプロジェクト遂行における考え方の表明であることは押さえておきましょう。
※…「ルール・手法・テスト活動・成果物・プロセスで定義される“何かをする”ためのアプローチ」と記事内で定義されています。
特にデータモデリング手法として、重要性を高め続けている「データボルト」について解説いたしました。柔軟性が高く、モダンなDWH構築に適した特性を持つデータボルトですが、データ量が多くなる、分析時にJOINが多くなるなど、欠点も指摘されています。ぜひ、ひとつの考え方として取り入れながら、最適な導入方法を探りましょう。
【参考資料】 ・Data Vault Alliance ・dbtvault ・CMM® | CMMI®とは┃compita japan ・Defining Data Vault 1.0 and 2.0 for Business┃LinkedIn ・Data Vault 2.0 and Methodology┃LinkedIn
(宮田文机)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
ChatGPTとAPI連携したぼくたちが
機械的に答えます!
何か面白いことを言うかもしれないので、なんでもお気軽に質問してみてください。
ただし、何を聞いてもらってもいいですけど、責任は取れませんので、自己責任でお願いします。
無料ですよー
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!