INDEX
ビッグデータが注目されている現在、それを分析するツールも重要です。
今回は大容量かつ複雑なデータを分析する際に使われる、OLAPツールに迫ってみたいと思います。
OLAP(オーラップ)とは、OnLine Analytical Processingの略で「オンライン分析処理」のことです。BIツールの機能の1つで、データベースに蓄積された膨大なデータに対し複雑な集計・分析を行い、素早くレスポンスを返してくれます。ここでのオンラインとは、素早くレスポンスを返すという意味です。
データサイエンティストなどの専門家ではなくても検索・分析ができるようにGUI(グラフィックユーザインタフェース)が用いられていたり、表やグラフなどが使われていたりします。主にデータ分析の初心者向けのツールといえますね。
OLAPは、収集した膨大なデータから独自に多次元的なデータベースを生成します。多次元的なデータベースとは、「地域」「製品」「価格帯」といった複数の軸を持つデータベースのこと。このデータベースを基に、分析処理を行っていきます。例を挙げると、ドリルダウン(例えば「期間」次元の「年」階層から「月」階層に掘り下げる操作)、スライシング(例えば「製品」次元をスライスし、製品Aだけを対象としたデータに絞り込む操作)、ダイシング(例えば「地域」次元と「製品」次元を取り換える操作)などがあります。
「OLAP」がどういったものか?について紹介させて頂きましたが、実際に、市場分析、財務分析、予算編成、売上予測を支援する「ツール」としては、主に以下の機能を備えています。
大規模なデータベースに蓄積された膨大なデータに対して、複雑で負荷の高い、集計・分析を行い、「売上」や「顧客数」などの分析対象となる指標を「地域」「製品」「価格帯」など、様々な軸で自在に、素早く結果を出力する機能です。
多次元分析の結果を円グラフ、棒グラフ、折れ線グラフ、バブルチャートやサンキーダイアグラム、地図上のヒートマップなどで可視化する機能です。可視化することで、結果をより客観的に捉えることができるようになります。
企業内の膨大なデータは、ExcelやCSVといったファイルをはじめ、MySQLやSQL Serverなどのリレーショナルデータベース、BigQueryなどのDWHやNoSQLなどで蓄積しています。OLAPツールの多くは、多様なデータソースとの連携とリアルタイムの分析に対応しています。
冒頭で「OLAP」の分析について説明させて頂きましたが、OLAPツールを使用するにあたって、より活用に繋がる、ぜひ知っておいてもらいたい基礎知識をいくつか紹介します。
BIツールでは、「キューブ」と呼ばれる多次元データベースにデータを格納しておき、以下に紹介する手法で、解析結果を表やグラフなどで出力します。
キューブ(立方体)をスライスするように、多次元データをある断面で切り取って2次元の表にすることを「スライシング」と言います。
例えば、「年」「地域」「製品」というディメンションを持つ立方体があるとすると、「年」と「製品」から「年度別製品別売上推移表」の作成がスライシングになります。
「スライシング」で作成した2次元の表の縦軸・横軸を入れ替えて、集計軸の異なる様々な表を表示させることを「ダイシング」と言います。
例えば、「年」「地域」「製品」というディメンションを持つキューブがあるとすると、「年」と「製品」で「年度別製品別売上推移表」を、「年」と「地域」で「年度別地域別売上推移表」といった集計軸の異なる様々な表の作成がダイシングになります。
ドリルには「ドリルダウン」、「ドリルアップ」、「ドリルスルー」などいくつか種類があります。
「ドリルダウン」「ドリルアップ」などのデータの階層を掘り下げたり、上げたりすることで、例えば、「地域」というディメンションがあるとすると、地方→県→市とより詳細なデータを参照する操作をドリルダウン、その逆をドリルアップといいます。
「ドリルスルー」とは、集計表上での1つの項目データ、集計データ、合計データなどの内訳を表示させることを指します。
OLAPは、データを集計・加工して使用しますが、実装方式によって、レスポンスやリアルタイム性といった使用性が異なってきます。使用シーンにマッチしないケースもあるので、OLAPを導入する場合、実装方式は、事前によく確認しておく必要があります。
様々な形式で蓄積したデータに集計処理を加え、事前にキューブと呼ばれる多次元データベースに投入しておいてから使用する方式です。
使用者の操作に対するレスポンスが非常に早いのですが、事前に処理を行った段階の情報しか得られないため、最新の情報を使用することができない、といった欠点があります。
蓄積しているデータ自体を多次元分析のデータベースとして使う方式です。
分析の度に、データベースから最新のデータを取得するので、リアルタイム性は高いのですが、膨大なデータの処理に負荷を要するため、MOLAPよりレスポンスは悪くなります。
MOLAPとROLAPの特徴を組み合わせた方式を指します。基本的に、集計データのみが必要な場合は、MOLAPと同じようにキューブに格納したデータを使用し、最新のデータを使用したい場合は、ROLAPと同様に元データを使用します。
過去記事「データマートとは? DWHとどう違う?そして話題のデータレイクとは?」でも取り上げましたが、データウェアハウス(DWH)とは「基幹系など複数のシステムから、必要なデータを収集し、目的別に再構成して時系列に蓄積した統合データベース」です。近年、ハードディスクの容量が大きくなり、膨大なデータを記録することができるようになりました。それによって、例えばスーパーの1カ月間のデータをすべて保存することができるようになったのです。
それに伴い、大量のデータを分析するツールが必要となりました。スーパーの例でいうと、売り上げが伸びるのは「何曜日」の「何時」なのか? 天気によってどう変わるか? 何と何が一緒に売れるのか? などを分析できるものが求められるようになります。加えて、専門家ではなく営業担当者や経理などの職種の人が簡単にデータを活用できることが求められました。OLAPは、これらを可能にするツールなのです。
「OLAP」と似たような言葉に「OLTP」という言葉があります。どちらも似たようなアルファベット4文字であり、混同しがちですが、実はまったく異なる言葉です。
OLTPとはOnLine Transaction Processingの略で、日本語ではオンライントランザクション処理と呼ばれるデータ処理方法の1つです。ここでいうオンラインとは、リアルタイムで処理するという意味になります。
トランザクション処理とは、「関連する複数の処理や操作を一つの処理単位にまとめて管理する方式」のことで、特定のレスポンスに素早く返す処理方法のことを指します。
OLAPは、売上や顧客数といった各種の指標を、多次元的に分析するための仕組みで、統計学や機械学習の手法でデータの山から役立つものを採掘(マイニング)するデータマイニングとは異なります。
データマイニングとは、大量のデータからビジネスの意思決定に役立つ法則や知見を発見するための技術で、文字通り、データの山から役立つものを採掘(マイニング)するというイメージです。
データマイニングは、クラスタリングやロジスティック回帰、アソシエーション分析といった統計学や機械学習の手法を駆使して行います。
OLAPとデータマイニングは、目的の観点では、データからビジネスに役立つ知見を導き出すので、共通しますが、前者は多次元的に分析するための「仕組み」に対し、後者は機械学習などを活用する「手法」であるため、概念といった観点で両者は別のものとして扱われます。
1990年代には、データ分析の専門家向けのOLAPツールが登場しました。その後、経営環境の変化によってOLAP以外に経営ダッシュボードなどの「モニタリングツール」や、表計算ソフトよりも高度な機能を持つ「レポーティングツール」が提供されるようになります。
2000年代に入り、これら3つを1つの製品に統合した「エンタープライズBI」が登場しました。現在は、BIツールも進化し、「セルフサービスBI」「クラウド化」「モバイル対応」「ビッグデータ活用」といった方向で進化しています。
このようにして見てみると、OLAPツールはBIツールの「原点」と言えるでしょう。
BIツールとは「ビジネスインテリジェンスツール」の略で、企業に蓄積された大量のデータを集めて分析・見える化し、迅速な意思決定を助けるためのソフトウェアのことです。
OLAPツールはBIツールの一機能として提供されていることが多く、ここでは、OLAP機能を備えたBIツールをいくつか紹介します。
データ活用に必要な機能を1つのプラットフォームで提供するBIツールです。
Dr.Sum EAエンジン、Oracle Database、SQL Server、IBM DB2、MySQL、CSVファイルなどさまざまなデータソースに対応しており、またデータソースごとに高速集計のための独自チューニングを施すことで、膨大なデータにも最適なパフォーマンスでの集計を実現します。
製品紹介サイト:データを集約・可視化 BIダッシュボード MotionBoard|ウイングアーク1st (wingarc.com)
データサイエンスに関する高度な専門知識がなくても、現場の担当者が手軽に分析作業に取り組むことができる、初心者でも直感的に操作ができるビジュアルアナリティクスに優れたBIツールです。
データ加工やレポート作成にかかる膨大な時間が大幅に短縮し、また、多種多様なデータソースに接続可能なので、今まで活用できていなかったデータを集約し、誰もが利用できるデータ活用プラットフォームを構築することで、分析業務の効率化を実現します。
製品紹介サイト:ビジネスインテリジェンスおよび分析ソフトウェア (tableau.com)
データを自在に読み解き、共有できる・・が特徴のBIツールです。
・ドラッグ&ドロップで直感的にデータを読み解ける
・Googleライクなキーワード検索で、関連するデータを自動表示
・単一アプリ上で、複数のデータソース内を探索
・データガバナンスとセキュリティはIT部門でまとめて管理
・いつでもどこでも分析できる。マルチデバイス対応
が特徴で、データ活用のハードルを一気に下げ、いろいろなデータをスピーディに統合、可視化したり、データを深く掘り下げて分析したりすることで、データ同士の関連性を見出すことを支援します。
製品紹介サイト:Qlik Sense | 最新のクラウドアナリティクス
分析に必要なデータ抽出・集計・変換を行う「ETL機能」、定型分析・自由分析が可能な「データ分析機能」、分析結果の可視化を行う「レポート・Webダッシュボード作成機能」を含み、はじめての人でも、さまざまなデータを分析・見える化して、経営や業務に役立てることができる業務分析ツールです。
製品紹介サイト:BIツールはLaKeel BI | 利用人数無制限のセルフサービスBI
Yellowfinは以下が特徴のBIツールです。
・自動でデータの変化をキャッチし、背景を伝えるBI
・管理が簡単、操作がシンプルで使いやすい
・いつでもどこでもデータにアクセスが可能
・細かい設定が可能なロールベースのセキュリティ
自動インサイト機能、コラボレーション機能、シグナル機能といった特徴的な機能で、手作業でおこなっていた作業を大幅に削減でき、社内外でのデータ共有も円滑に進むので、データ分析の効率化を図ることができます。
製品紹介サイト:Yellowfin BI | ビジネスインテリジェンス レポート, 分析 & ソフトウェア
データを分析する際、重要なツールの1つであるOLAP。特に「誰でも使うことができる」というのが魅力です。ビッグデータのように大規模で複雑な分析をする際に重宝されるため、これからますます需要が増えていくものと思われます。データ分析の際には押さえておきたい言葉です。
【参考記事】 ※1 OLTPとは?OLAPやDWHとの違いをわかりやすく解説| 株式会社 インテリジェント・モデル ※2 OLAP(オンライン分析処理)とは - IT用語辞典 ※3 BIツールの機能 - OLAP分析とは_|データ分析|IT製品の事例・解説記事 ※4 インメモリデータベースで高速処理化が進む最新OLAP分析ツール - TechTargetジャパン データ分析 ※5 OLAP | 用語解説辞典|【公式】NTTPC ※6 第39回 BIの最新動向(1)~BIとは何か?:株式会社日立システムズ
(安齋慎平)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
ChatGPTとAPI連携したぼくたちが
機械的に答えます!
何か面白いことを言うかもしれないので、なんでもお気軽に質問してみてください。
ただし、何を聞いてもらってもいいですけど、責任は取れませんので、自己責任でお願いします。
無料ですよー
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!