Share!

「データマート」という言葉をご存知でしょうか? 先日、とある記事を読んでいたところ、データマートが当然のように登場しており、用語の解説すらありませんでした。しかしながら、データマートという言葉はそれほどメジャーな言葉とは思えず、知っているという人も少ないのではないかと感じています。そこで今回は、このデータマートをクローズアップしてみることにしましょう。

データマートとは?

データマートとは、IT用語辞典によれば、以下のようなものをいいます。


データマートとは、企業などで情報システムに記録・蓄積されたデータから、利用部門や用途、目的などに応じて必要なものだけを抽出、集計し、利用しやすい形に格納したデータベースのこと。「マート」(mart)は「小売店」の意。

データマートとは – IT用語辞典


以前データのじかんでも取り上げましたが、データマートはデータベース全体のことではなく、データベースの一部を指します。これに関係する言葉として「データウェアハウス(DWH)」というものがありますが、こちらは基幹系など複数のシステムから、必要なデータを収集し、目的別に再構成して時系列に蓄積した統合データベースとなります。データマートとは、データウェアハウスの中から特定の目的に合わせた部分を取り出したものです。

データマートとデータウェアハウスの比較

次に、データマートとデータウェアハウスの比較をしてみます。Talendというサイトにこれらの比較記事が載っていました。以下、比較表を引用します※1。


この表からも、データマートはデータウェアハウスの一部を指していることがわかりますね。

データマートは「早く」「安く」構築できるが…

多くの企業では、これまでデータマートを導入し続けてきました。それは、ユーザーが求めているシステムを早く・安く構築することが可能だからです。データウェアハウスが技術的に難しかった頃はデータマートを作らざるを得ませんでしたが、未だにデータマートを導入する企業はたくさんあります。しかしながら、データマートはデータのやり取りが非効率であり、運用の総コストを押し上げる原因となっています

また、ユーザー側にとっても、求めるニーズが従来のデータマートでは収まりきらなくなっています。業務が横断的かつ長期的な分析が必要となってきているからです。今後はユーザーの要求に応えるべく、データウェアハウスの構築が求められます※2。

ここまでは、データマートについて見てきました。ここからは、今注目されている「データレイク」について見ていくことにしましょう。

今注目されているデータレイクとは?

データレイク(Data Lake)とは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ(保管場所)のこと※3。非構造化データとは、画像、動画、音声、ソーシャルメディアなどです。データをそのままの形で保存でき、データの構造化の必要がありません。

データレイクを利用することで、データの一元管理ができるようになり、作業の簡略化が実現しました。また、データ形式に関わらず様々なデータを蓄積可能なため、欲しいデータを簡単に抽出することもできます※4。

データウェアハウスとデータレイクの比較

データレイクとデータウェアハウスの比較に関しては、AWS公式サイトの情報が詳しいので、こちらのサイトを引用します。

簡単に言ってしまえば、データレイクはとりあえず情報をたくさん集め、そこから分析結果を得るという「帰納的」アプローチです。対してデータウェアハウスは、先に分析理論が確立されており、そのためにデータを集めるという「演繹的」アプローチとなります※5。

まとめ

以上、データマート、データウェアハウス、データレイクについて見てきました。これまでは1つの部門の要求に応えられるデータマートの構築で問題はなかったのかもしれませんが、これからは全社的に最適化されたデータベースが求められます。ITを担当している部署は、リーダーシップを持ってシステム構築を進めていくことが必要です。

またデータレイクに関してですが、組織内に点在しているデータを統合して一元管理するためにも、データレイクとデータウェアハウスを単独で導入するのではなく、併存させる形で導入したほうが、より柔軟性のあるデータ統合が可能です※5。ぞれぞれの長所を生かし、データ分析を行っていきたいものですね。

 (参考記事)
 ※1 What is a Data Mart_ (vs a Data Warehouse) - Talend
 ※2 データウェアハウス vs データマート _ 日本テラデータ|ブログ
 ※3 データレイクとは | AWS 公式
 ※4 Data Lakes(データレイク) |これからは、コレ!|ITソリューション&サービスならコベルコシステム
 ※5 データレイクとデータウェアハウスの違いとは | Informatica Blog Japan

(安齋慎平)

この記事を読んだあなたにおすすめのタグ

この記事を読んだあなたにおすすめのタグ

「データ活用」ランキング

人気のカテゴリ