About us データのじかんとは?
INDEX
データベース (Database)とは、簡単に言えば「情報の集まり」のことです。
情報は多ければ多いほど、さまざまな分析対象になり、企業経営にとっての戦略的情報を導出することが可能になります。しかしながら、その情報は使いやすい状態で整理されている必要があります。そのためのプラットフォームをデータ(情報)ベース(基地)と呼びます。
広義のデータベースは紙の情報カードなどを蓄積したものや情報蓄積メディアなども含みますが、一般的にはコンピュータの利用を前提としたデータの集まりを指します。
データベースの例としては、住所録、検索エンジン、電子カルテ、オーダリングシステム、企業データベース、CDDB (Compact Disc DataBase) などCDの曲名やアーティスト名の情報が格納された音楽データベース、化学データベース、OPAC、IPDL、将棋や囲碁などの棋譜データベースなどがあります。
データベース(Database)とは、企業などが情報を組織的に保存、管理、検索するためのシステムまたはプラットフォームを指します。データベースは通常、テーブルと呼ばれる構造に整理して、データを格納します。各テーブルは複数のフィールド(列)とレコード(行)で構成され、種類や順番などをこれらと紐付けて、データを保存します。
まずはデータベースを知る上で知っておいて損はない基礎知識についていくつか紹介します。
データモデルとは、データの構造、関係、制約などを表現するための抽象的なフレームワークや概念のことで、データベースにおいては、どのようにデータが格納され、どのようにそのデータ間の関係が結ばれるのかを定義します。主要なデータモデルとしては以下が挙げられます。
テーブルでデータを管理する最も一般的なデータモデルです。一つのテーブルは行(レコード)と列(フィールドまたは属性)で構成され、テーブル間には「リレーションシップ」(関係)があります。
ドキュメントと呼ばれる独立した単位でデータを格納するデータモデルのことで、JSONやXMLのような形式でデータを保存します。
単純なキーとそれに対応する値のペアでデータを保存するデータモデルで、高速なデータの読み書きが必要な場合や、データ構造が単純な場合に使用されています。
データとその関係性をグラフとして表現するデータモデルのことで、データ間の多対多の複雑な関係を表現するのに適しています。
主にBig Dataと呼ばれる大量のデータを効率的に処理する場合に使用するデータモデルです。テーブルの各列が独立して格納・管理されているため、列ベースの高速クエリが可能になります。
データベースオブジェクトとは、データベース内でデータや処理を構造化するために使用される構造やコンポーネントのことです。主なデータベースオブジェクトとして以下のようなものが挙げられます。
データベースの基本的なストレージ単位であり、行(レコード)と列(フィールド)で構成されます。リレーショナルデータベースでは、テーブルは特定の「エンティティ」(例:顧客、商品、注文等)として表現します。
データベース内のデータを効率的に検索するために作成されるオブジェクトです。インデックスは、特定のテーブルの一つ以上の列に対して作成され、データ検索を高速化します。
一つまたは複数のテーブルから生成される仮想的なテーブルです。ビューはデータベースのテーブルに対するクエリとして定義され、その結果セットを提供します。データの抽出や集約を簡易化するために使用されます。
一連のSQL文をまとめて保存したものです。ストアドプロシージャは、繰り返し行われるクエリや複雑なビジネスロジックを効率化するために使用されます。
特定のイベント(例:データの挿入、更新、削除など)が発生した際に自動的に実行されるプログラムです。データの整合性を維持するためなどに使用されます。
連続する整数値を生成するオブジェクトで、主に主キーの自動生成などに使用されます。
テーブルにデータが追加や更新される際のルールを定義します。主キー(Primary Key)、外部キー(Foreign Key)、一意性(Unique)、NULL許容性(Not Null)などがあります。
これらのデータベースオブジェクトは、データの整理、検索、保持、関連付けなど多様な機能を提供するために存在します。データベース管理システム(DBMS)やデータモデルによっては、これ以外にも特有のオブジェクトをサポートしている場合もあります。
SQL(Structured Query Language)とは、1970年代にIBMで開発され、その後多くのデータベースシステムで広く採用される、リレーショナルデータベース管理システム(RDBMS)でデータを操作・管理するためのプログラミング言語です。SQLは主に以下のような機能を提供します。
データベースから特定の条件に一致するデータを抽出するための命令です。
新しいデータをテーブルに追加するための命令です。
既存のデータを修正するための命令です。
テーブルから特定のデータを削除するための命令です。
新しいテーブルの作成、および既存のテーブル構造を変更する命令です。
SQLはデータベース操作において非常に強力な言語です。習得することで、データベースからの情報抽出や、データの管理が効率的に行えるようになります。
デジタル化が進む昨今において、データベースは以下に示すように、多様な環境と目的で活用されています。
データベースはこれら以外にも多くの用途で活用されています。独自の用途に応じて、データベースをカスタマイズしたり、特定の問題を解決するための独自のデータベースシステムを導入したり、開発したりして活用しているケースもあります。
データベースを活用するには、データベースを効率的に操作するためのソフトウェアである『データベース管理システム(DBMS)』を導入するのが一般的です。よく知られているDBMSとして、MySQL, PostgreSQL, SQLite, Oracle Database, Microsoft SQL Serverなどがあります。
一般的なDBMSは次のような機能を備えており、これらを使用することで、データベースの活用を支援してくれます。
このように、データベースはデータを効率的に管理し、必要な情報を素早く取り出すための重要なツールとして多くの企業、行政などで導入を推進しています。
データベース管理システムの主な役割は「データの蓄積」と「データの活用」です。
またデータベースと連携した分析用ツールを使うと、大量の情報に対して、キーワードやタグを付けるなどして、データの検索・抽出・加工が可能になります。そのため、データを整理して分析が必要な案件であれば、分野を問わず有効な解決策になり得ます。
例えば、大量の顧客データを持つ企業が、マーケティングに利用する場合(データベース・マーケティング)を考えてみましょう。
データベース・マーケティングとは、顧客の年齢や住所、職業、家族構成、年収や性別、学歴や趣味などといった属性情報や購買履歴などをデータベース管理し、特定の属性の人たちが好んで購入する商品やサービスはどのようなものか、という傾向を明らかにし、その傾向に沿った商品やサービスを積極的に提供していくマーケティング手法のことです。また、属性情報によって顧客の切り分けを行うことをターゲットセグメンテーションと言います。そして、言うまでもなく、特定の属性を持つ顧客にダイレクトにアプローチできることは極めて効果的な方法です。
例えば、アマゾンでは購買履歴情報がデータベース化されており、ある商品「A」を購入した人は、別の商品「B」も購入する傾向があることがわかっている場合、積極的に「合わせて買いたい」のセクションに別の商品を露出させたり、「この商品を購入した人はこちらの商品も購入しています」など思わずチェックしたくなるような商品の紹介方法が実装されています。これはまさにデータベース・マーケティングの典型的な例です。アマゾンの成長を支えてきた裏側にはこのような戦略的な提案でありつつ、顧客にとっても有益な情報を提案することで、顧客の気分や印象を悪くしない、というwin-winの構図を実現させる取り組みが数限りなく存在しています。
データベースには用途に応じたさまざまな種類があります。
複数のテーブル間で関連付けを行うデータ管理方式を「リレーショナル・データベース (Relational Database:RDB)」と呼びますが、分析に用いるデータベースはほとんどがこのRDBです。リレーショナル・データベースはイギリスの計算機科学者エドガー・F・コッド氏によって提案されたモデルで、データの関係性によって構造を定義し、関係性を持つ組を「グループ」として扱うことでデータを整理する、という特徴を持ちます。
リレーショナル・データベースの代表的なものにはRDBMSの「MySQL」などがあります。MySQLは個人であれば無償、商用では有償で利用でき、ウェブサーバ用のデータベース管理システムとしてもよく知られています。
大規模なシステムにも対応したマルチユーザー仕様なので、複数のユーザーが同時にアクセスするウェブアプリケーションには最適です。また、JavaScriptやPHPなどのプログラミング言語との親和性が高いため、高度なシステムの構築も比較的容易に実現できます。
情報活用ダッシュボード(BIツール)やデータ分析基盤を導入したデータベースの活用事例を以下に紹介します。
新潟県柏崎市は、行政情報の可視化・オープン化や高度な行政経営の実現を目的に、情報活用ダッシュボード「MotionBoard」を活用し、市の予算・決算、事業の進行・評価・報告までの情報を体系的に結び付けた仕組みを構築しました。このデータを基にした「デジタル予算書」はインターネットでも公開しています。自治体予算書のデジタル化に加えて予算関連データを統合的に紐づけ、かつデータベースとして蓄積するこの仕組みは、自治体における情報活用・公開の先進的な取り組みとして広く注目されています。
全国に約50店舗(内POSレジを導入店舗は約30店舗)を有する店舗事業において売上や在庫などのデータを商品管理に活かすため、1997年、店舗向けにPOSレジを導入。さらに、POSで収集したデータを経営戦略に活用するべくデータウェアハウスを構築し、OLAPツールを導入、運用を開始して一定の効果を上げていました。
しかし、導入後5年余りが経過した頃、次第に社員から「データが表示されない」という不満の声が上がり始めました。その原因は、日々増え続ける膨大な量のデータにありました。書籍や文房具など点数の多い商品を扱う性質上、年間1億件ものデータが蓄積され続けることとなり、その結果、ツールの処理能力が追いつかなくなっていたのです。
そこで、店舗展開のさらなる拡大を想定して、Dr.Sum EA Enterpriseを中心にDr.Sum EAシリーズを本格的に導入。前日売上などの短期的な帳票だけでなく、在庫管理や予算管理などの中期的な帳票も作成・運用することで分析のバリエーションが増え、より多彩なデータ活用が可能になりました。
(データのじかん編集部)
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!