データレイク/データウェアハウス/データマート etc.
データサイエンスに求められる
データベースの基礎知識と学習法

近年、職種に依らないビジネスパーソンの基礎スキルとして、データ活用スキルは欠かせないものになっています。筆者は事業会社のデータ分析部門で働いており、ビジネスサイドのデータ分析担当として、全社のデータ活用を推進する立場で業務を行なっています。 本稿では、データサイエンスを推進するうえで必要となる「データ活用基盤」の全体像と、データを活用するために必要となるデータベース関連の必要スキルについて、お話したいと思います。

Share!

自社データ・外部データ(データソース)

まずはデータそのものがないと始まりません。
業種や業態にもよりますが、企業の中には以下のような様々なデータが存在しています。

  • 契約・売上データ
  • 顧客データ(CRM)
  • アンケートデータ
  • WEB・アプリ行動ログデータ
  • コールセンターデータ など

これらは当該企業内で発生したデータ(自社データ)であり、このようなデータを「ファーストパーティデータ」と呼びます。他方、天候データや各種の調査データのような、外部から取得したデータ(外部データ)を「セカンドパーティデータ」「サードパーティデータ」と呼びます。近年は、自社データのみでなく、こうした外部データも活用しながら、各種分析やAIモデルの作成を行う企業が増えています。

データレイク

データレイクは、全てのデータを入れておく巨大な入れ物だと思ってください。使用目的も定義されていない状態の生データを、データ形式などに依ることなくそのまま保存できます。CSVやJSONファイルなどの構造化データはもちろん、画像や音声、テキストデータなどの非構造化データもそのまま保存できます。

データウェアハウス(DWH)

データウェアハウスはデータレイクとは異なり、データを構造化し、目的別に整理をして利用できる状態にして格納したものです。SQLというデータベース操作言語を使ってアクセスすることができます。

データマート

こちらはいわゆる「中間データベース」になります。データウェアハウスだけでは、目的のデータを効率よく検索したり抽出したりすることがなかなか難しかったりするため、データウェアハウスのデータを部門別・目的別に利用しやすくするよう、もう一段整理をして専用のデータベースを作成したものになります。

BIツール

BIとは「ビジネスインテリジェンス」の略です。BIツールとはデータウェアハウスやデータマートのデータをソースとして、各種の分析・可視化をノーコードで実行できるツールのことです。製品としては、データのじかんを運営するウイングアーク1stのMotionBoardなどが挙げられます。近年は、全社的にBIツールを導入し、現場のマーケターや営業担当者自身がデータ分析や集計を行う、いわゆる「データの民主化」を進める企業が増加しています。

AI /機械学習(モデリング)

データサイエンティストが中心となり、データウェアハウスのデータや、場合によってはデータレイク上の生データ(画像データなど)も使いながら、種々の機械学習モデルを作成します。

データ活用基盤についてまとめると、まずは企業内に点在する様々な形式のデータを1箇所(データレイク)に集めます。ただし、これだけでは全社でデータを活用することは困難です。そのため、これらのデータをデータウェアハウスやデータマートと呼ばれる構造化されたデータベースに格納することで、分析者やマーケターといわれる一般の社員がBIツールでデータにアクセスして分析・可視化を行ったり、機械学習のデータソースとして活用することが可能になるのです。

ビジネスパーソンに求められるデータベース関連のスキル

図:データサイエンスの推進に必要なスキル(出典:一般社団法人データサイエンティスト協会

それでは、実際にデータサイエンスを推進するビジネスパーソンにはどのようなスキルが必要になるのでしょうか。下図はデータサイエンティスト協会が定義している、データサイエンスを推進するために必要なスキルの考え方を表したものです。

もちろん、職種によって専門とする領域は分かれますし、川上から川下までを1人で行うわけではありません。システム基盤の構築はクラウドエンジニアやデータエンジニアと呼ばれるエンジニア系の職種の方が基本的には対応しますし、AIモデルの作成はデータサイエンティストが担当するのが一般的です。BIツール等を活用しながら、ビジネス側との橋渡しやテーマの抽出、プロジェクト推進を行うのは、データアナリストと呼ばれる方だったりします。

一方で、程度の差はあれど、これらの職種に共通して必要なスキルとして、「データベースに関する知識、操作スキル(SQL)」があると考えます。SQLとは、データベースを操作する言語であり、データ定義言語(テーブル自体を定義して作成する言語)とデータ操作言語(データベース上のデータを取得したり変更・削除する言語)に分けられます。このうち、分析業務で特に重要なのは、データ操作言語であり、その中でも特にデータを取得する操作(SELECT文)のスキルが必要になります。

もちろん、BIツールを使うことで、SQLのコードを書かなくても一定のデータ取得や分析・可視化は行えます。しかし筆者の経験上、SQLを直接書いた方が効率よく分析ができるケースというのは実務上どうしても発生します。そのため、ビジネスサイドの人間であっても、基本的なSQLは書けた方が良いでしょう。そもそも、BIツールも裏側はSQLベースで動いているものですので、SQLの学習はBIツールの操作スキルの向上にもつながります。

データのじかんでは、データサイエンティスト協会の定義するスキルセット、ビジネス課題解決力(ビジネス力)/データサイエンス力/データエンジニアリング力に加え、データを文化として捉え直すことが重要だと考えています。

データは単なる数字ではありません。データからは、人やモノやコトの行動や変化、感情や思考の動きなども見て取ることができます。データは、社会や人々の姿を映し出す、ひとつの文化なのです。より多くの人々がデータを活用する上で、データという文化の土壌を耕すこと、それが必要なのではないかと考えています。

データのじかんが定義するDX時代のデータを利活用するためのマインドセット(データのじかんHP

 

データベース関連スキルの具体的な学習法

ここからは、データベース・SQL関連のスキルを得るための学習方法について、筆者の経験をもとにお話します。

重要なのはインプットとアウトプット

これはどのような学習にも共通して言えることですが、何らかの知識やスキルを得るには、

  • 1. 体系的な知識のインプット
  • 2. インプットした知識を実践形式でアウトプット

という2つのプロセスを繰り返していくことが効果的です。

インプットに関しては、

  • 1. 市販の書籍
  • 2. 動画コンテンツ(YouTubeやUdemy)
  • 3. データベース関連の資格試験の学習

の3点がおすすめです。

アウトプットに関しては、演習問題が豊富なインプット教材を利用すること、あとはやはり自社の環境で実践的に活用することが習得の近道です。

以下に、初学者におすすめの書籍をご紹介します。

この本の良いところは、「Google BigQuery」というクラウド上のデータベースを利用することで、エンジニア以外の方には最初の段階でハードルとなるデータベースの環境構築の作業を行うことなく、SQLの学習を始められるところです。また、タイトルにもある通り、ビジネスデータ分析を目的とした内容になっているので、扱うSQLもデータ取得・分析用の内容が中心となっており、手を動かしながら、データ分析の基本を体感できます。

こちらは少し古い本ですが、分析担当者とエンジニア双方にお薦めできるSQL本です。非常に多くのサンプルコードが掲載されていますので、手元に置いておいて辞書的に使うのも良いと思います。複数のデータベース

(PostgreSQLやAmazon Redshiftなど)に対応したコードが記載されている点も魅力です。

次に、お薦めのUdemy動画コンテンツもいくつか紹介しておきます。

こちらは、先に紹介した「集中演習 SQL入門 Google BigQueryではじめるビジネスデータ分析」の著者である木田さんが作成している動画になります。内容は書籍と近いもので、BigQueryを使いながらSQLの基礎を学ぶことができます。

こちらは、ある程度SQLの基本構文は押さえたうえで試聴すると効果的です。具体的なサービス改善をテーマに、どのような流れでアドホックにデータ分析を進めるのかを体験できます。

データベース関連の資格

最後に、データベース関連の資格について簡単に紹介しておきます。このあたりは、どちらかと言えばエンジニア向けの内容になります。ビジネスサイドの方は、書籍や動画コンテンツで基礎的な理解をおこなったうえで、さらに専門性を深めたいと考えた際に、検討していただければ良いと思います。

データベーススペシャリスト:高度情報処理技術者試験(国家資格)の1つです。データベース管理者やインフラエンジニアを目指す方に最適の資格であり、難易度は高いですが、そのぶん市場の評価も高いものになります

Oracle Master:日本オラクル社が公式に認定する「Oracle Database」の管理スキルを証明する資格です。業界では非常に有名なベンダー資格であり、全世界で高いシェアを誇るオラクル社のデータベースを扱う能力を証明できることは、業界において非常に有利です。

内容はデータベース管理およびSQLの両方が含まれます。データベースの基礎知識を得る目的であれば、初級レベルの「Bronze DBA」を、SQLの基礎力も身につけたい場合には、その上の「Silver SQL」を目指すのがお薦めです。

OSS-DB技術者認定資格:こちらはオープンソースのデータベースに関する技術力と知識を認定する資格です。大規模データベースシステムでも多く採用されている「PostgreSQL」が基準のデータベースに採用されていますので、例えば自社の環境でPostgreSQLを利用している場合には、こちらにチャレンジするのもお薦めです。

まずはデータベースの基礎学習を始めよう!

本稿では、データ活用基盤の全体像をご紹介すると同時に、データベース関連のスキルを得るための学習方法について、筆者の経験をもとに紹介させていただきました。本記事を参考に、ぜひデータベースの基礎学習から始めてみていただければ幸いです。

佐藤 隆宜(さとう・たかのぶ)氏
ネット系保険会社のデータ分析部門で、データ分析基盤の構築や社内のデータ活用を推進している。特にマーケティング、CX改善が主担当領域であり、KPIの策定から可視化、分析、効果検証に至るまで、データドリブンなPDCAを推進する立場として業務を行う。
中小企業診断士、上級ウェブ解析士 
データサイエンスの自学自習を支援するパラレルキャリア研究会主宰

関連記事

人気のカテゴリ