About us データのじかんとは?
カタログとは、一般的に企業が顧客向けに作成するものであり、主な目的は商品やサービスの選択・注文を促すことにあります。例えば消耗品や家具、宿泊ホテルなどの商品を扱うもの、企業の事業内容が掲載されたものもカタログと呼ばれるものです。そして、データ利用者向けに特定のデータを整理して書き並べたものに、データカタログがあります。
本記事ではデータカタログについて解説します。良いデータカタログと呼ばれるものにはどのような特性があるのか。データカタログの作り方や、よく用いられるツール、マネジメントの観点でも押さえていきますので、ぜひ参考にしてください。
データカタログとは、企業が扱うメタデータを集約して、一元的に管理するカタログ(目録)です。同じくデータを一元的に管理するデータレイクと異なる点としては、データ構造ごとにデータを管理している点が挙げられます。
データカタログは、データ利用者が必要なデータを、容易に、正確に、取り出せることを期待されて使用されるものなので、データの用途を理解した上で、カタログに持たせるべきデータを選定し、管理する仕組みが必要だと言えるでしょう。
メタデータとは、データに関する説明や情報を記述するデータ、つまり「データについて定義するデータ」を指します。 例えば、資料の最終更新日や作成者、作成年月などがこのメタデータとされています。 では、そのメタデータにはどのような種類があり、どういった効果や価値があるのでしょうか。
データカタログで管理するデータ(メタデータ)には主に次の3つがあります。
順に紹介しますが、これらのメタデータが揃っていなければ、データカタログはデータカタログとして成立しません。収集対象とするメタデータを特定しておき、メタデータの所在、管理部署などは、予め明確にしておく必要があることを押さえておいてください。
テクニカル・メタデータのイメージはデータベースで扱う単位のデータです。テーブル、カラム、データ型、物理名などがあります。テクニカル・メタデータでは、データの処理方法が確認できます。
イメージは設計書で扱う単位のデータです。ソースコード、システム名、機能概要、論理名などがあります。ビジネス・メタデータでは、組織内のデータ資産に関連づいている既存のメタデータが整理できます。
運用する中で発生するデータです。更新履歴、使用頻度の高いSQL、リレーションなどがあります。オペレーショナル・メタデータでは、システムの正常な運用や管理に必要な情報を提供してくれます。
データカタログでは、データ利用者が簡単にデータ検索できることを目的にメタデータを管理します。データカタログが収集する対象のメタデータは、データ利用者が業務などで活かせる情報でなければ意味がありません。そのため、まずはデータ利用者が実際にどの場面でデータカタログを使用するのかを想定しておく必要があるでしょう。
どのような人が、どのような情報を、どのような目的で扱うのかを定めておくことで、データカタログで管理するデータ特性が明確になり、データ利用者も信頼を持ってデータを取り扱えるようになります。
ここで、データマネジメントや分析の際によく使用する用語をまとめました。
用語 | 英語表記 | 概要 |
データレイク | Data Lake | 様々な形式や種類のデータをそのまま蓄積する大容量のデータレポジトリ |
オープンデータ | Open Data | 無償で自由に利用できる公開データ |
ビッグデータ | Big Data | 容量が大きく種類も多様なデータの総称。3つのVが特徴、最近では5つのVの定義も。 |
データボルト | Data Vault | データウェアハウス構築のためのデータモデリング手法の一つ |
データマート | Data Mart | 特定の業務分析を目的とした小規模なデータウェアハウス |
データウェアハウス | Data Warehouse | 企業が保有する大量のデータを分析に適した形で蓄積するデータベース |
DataOps | DataOps | DevOpsの考え方をデータ分析環境に適用し自動化/効率化を推進 |
データカタログ | Data Catalog | 組織が保有するデータ資産のメタデータを集約し可視化するリポジトリ(倉庫/目録) |
データマネジメント | Data Management | 組織のデータ資産を適切に管理・活用するための方針やプロセス |
メタデータ | Meta Data | 「データに関するデータ」であり、他のデータの内容、性質、構造を説明する情報でそれをより利用可能かつ理解しやすくするためのもの |
データモデリング | Data Modeling | データの流れと管理システムを図とテキストで定義・可視化すること |
世の中のデジタル化が進む中、多くのことが便利になる一方でデータ量が膨大となり、取り扱いが非常に困難となっています。そのため、どこにどのデータが存在しているか、どのデータを使用すればよいか不明となり、データが見つからない可能性もあるでしょう。
また、データは常に変化し続けます。そのため、それぞれのデータの最新性、関連性がどのように変化しているかが重要です。それらを把握したうえで、データ全体の整合性や正確性の確保が必要となります。
これらの課題を解決するために、データカタログによる適切なツールの利用が必要不可欠です。
膨大な量のデータに対して必要不可欠なデータカタログですが、どのような機能を備えているのでしょうか。また、どのような使い方をすれば機能を最大限に発揮できるのでしょうか。 今回は以下の4つの機能・使い方を紹介します。
それでは、一つずつ詳しく解説します。
一つ目の機能は、データ検索の効率化です。 データカタログは、企業全体のデータを管理し、様々な切り口から絞り込んで必要なデータをいち早く発見します。また、データ属性やキーワードなどの検索データをもとに、関連するデータを確認できます。それによって、データの依存性の分析や利用している処理が確認できるでしょう。
二つ目は、データプロファイリングです。 データプロファイリングとは、データの一貫性、完全性、統計情報や鮮度などの詳細な情報の収集によってデータを評価し、信頼度と理解度を高めるプロセスを指します。ビジネス上の問題解決においてデータが有用か判断するために、データプロファイリングは必要となります。
三つ目は、自動化によるデータセットの充実です。 自動化により、作業スピードのアップや誤りの修正などが実現でき、企業内のデータセットが充実します。自動化が可能なタスクはすべてAIなどによって自動化させるのが望ましいでしょう。さらに、AIはデータカタログのユーザーや他サービスのユーザーに推奨するものを提供するなど、データ使用によって機能を高めています。
四つ目は、データガバナンスの持続可能化です。 コネクタとは、データベース内に整えられた情報をマッピングすることを言います。また、キュレーションとは、膨大な量の情報を独自の基準で収集・選別・判断し、新たな価値を持たせた状態で提供することを言います。 多くのコネクタを用意し、様々なソースから取得したデータをキュレーションすることで、データガバナンスを持続可能なものにできるでしょう。
適切なデータカタログは、企業のデータ処理を効率的にし、業務効率の向上につながります。一方、何も考えずに作成すれば、データのアクセシビリティが低いままのデータカタログが出来上がる恐れがあります。 以下の手順に従うことで、事前に対策しておきましょう。後半ではデータカタログツールを用いる場合も紹介しています。
データカタログの作成には次のステップを踏みます。
それぞれ詳しく解説します。
データカタログが果たす大きな役割は、データ利用者に代わり、膨大にあるデータの中から必要なデータを検索することです。まずはデータ利用者の視点に立ち、どのデータを対象に、どのような目的でデータを活用していくのかを明確にしましょう。データ利用者が特定できている場合は、ヒアリングを実施するなどして、ニーズを直接聞き出すのも効果的です。
データ活用の目的が明らかになったところで、次は、その目的を果たせる必要最小限のメタデータを特定します。可能なら、引き続きデータ利用者から話を聞き、データの構造、形式、特性、発生タイミングなどの把握に努めましょう。
データ整理ができたら、実際にテーブルスキーマを設計するなどしてメタデータを収集します。扱うメタデータの詳細な技術仕様なども定義書としてまとめ、文書記録も残しておきましょう。収集するデータは日々変化しています。残している記録と、日々収集するデータに重要な乖離が生じれば、データカタログ自体を見直す必要が出てくるかもしれません。
データを収集したら、関連性や依存性を記録します。データ同士の関連性を可視化し、依存関係の把握が、データカタログ作成において必要です。それによって、データを利用した際や変更した際に影響が出る範囲を評価できるでしょう。
最後に、セキュリティを設定した後、データカタログの利用者や関係者と共有し、アクセスできる形で公開します。適切なツールを利用し、検索すれば閲覧できる状態を、利用者に提供します。 また、公開したら終わりではなく、継続的な更新が必要です。データ環境は、何度も変化します。その度に情報の追加や更新が重要となるため、正確性と有用性の維持のために継続的に更新しなければなりません。
データカタログの作成にあたり、ツールも数多く登場してきています。 ツールを活用する際に覚えておくべきことは、ツールを活用しても、欲しいデータが収集できるとは限らないということです。ツールで主にできることは特定のメタデータを収集することであり、メタデータの特定はあくまで自社での検討事項になります。
つまり、ツールを活用する場合でも、前述の「Step1.メタデータを収集する目的を定義する」「Step2. 収集するメタデータを特定する」は自社で予め検討しておく必要があるということです。このStepを踏むからこそ、スムーズにデータカタログ作りが進められるようになります。
数あるデータカタログツールの中から代表的なものを3つご紹介します。
それぞれ紹介します。
IBMが提供するデータカタログツールです。オンプレミス、クラウド、ハイブリッド環境に対応していることから、幅広いデータソースをカタログ化できます。AIや機械学習を活用したデータの自動検出や分析機能も充実しているところがポイントです。
Alationが提供するデータカタログツールは、データの可視化や分析に優れています。データの品質管理やデータガバナンスもカバーし、データドリブンな意思決定が期待できます。
Informaticaが提供するデータカタログツールです。データのライフサイクル全体からアプローチをかけられ、データを収集、保存、分析、共有できます。効率性重視の人におすすめできるツールではないでしょうか。
数多くのデータカタログがある中、どうやって選べばよいか難しいと思います。そこで、データカタログを選ぶ際の決め手となる観点を4つ紹介します。
下記にて簡単に紹介しますが、調べてみると、同じデータカタログツールでも、ツールごとに強みとしている機能は異なりました。広範囲からのデータ収集が得意なもの、特定領域のデータ収集に特化したものなど、ツール選びの際は、どのような機能に強みがあるのかを確かめたうえで、企業のニーズにマッチするツールを選べば失敗はしないはずです。
オンプレミス、クラウド、ハイブリッドなど、環境に左右されないツールであれば、幅広いデータソースをカタログ化できます。
AIを活用したデータの自動検出や分析に優れたツールであれば、収集すべきメタデータの特定にも期待できます。
データの可視化や分析に優れたツールであれば、日々収集するデータのモニタリングに活かせるのではないでしょうか。
データの品質管理やデータガバナンスをカバーできるツールであれば、データに裏付けられた意思決定が実現できます。
では、データカタログは実際にどのように使用されているのでしょうか。以下の3つの事例と共に紹介していきます。
それぞれ詳しく紹介します。
一つ目は、東京都オープンデータカタログサイトです。地域課題の解消や利便性の向上を目指すオープンデータの取り組みを進めています。 このデータカタログサイトには、東京都の医療・福祉・防災など、14種類の幅広い分野のデータセットが収集されています。避難場所やウイルス感染者、バリアフリー情報などといったデータが多く利用されています。 このようなデータカタログサイトは東京都だけではなく、様々な自治体で公開されています。
二つ目は、e-Govです。二次利用可能なデータの案内や横断的検索を目的としたオープンデータカタログサイトです。 このデータカタログサイトには、人口や社会保障・衛星、運輸・観光など、13種類のデータセットが収集されています。地方自治体や省庁などから集められた27,000件以上の公共データがサイトには存在し、国内最大級のデータカタログサイトとなっています。
三つ目は、e-Statです。各府省から公表された統計データを収集し、様々な活用機能を備えたポータルサイトです。 e-Statは日本の統計を閲覧できる政府統計ポータルサイトであり、国土・気象や人口・世帯、労働・賃金など17種類の分野の統計データが集められています。また、csv形式のデータが多く、様々な外部サービスと連携しており、政府統計の総合窓口とも言われています。
データカタログを用いてデータを継続的に活用できる状態というのは、経営の意識決定に一役買えるということです。つまり、企業が取るべき次の行動がデータとして表れている状態なので、正確な判断が下せるようになります。 この状態を維持するための努力が、データマネジメントです。
データマネジメントの主な効果は、データに基づいて正しい判断が素早く下せることです。 下された判断内容もデータに基づいて明確なことから、素早い施策が打て、効率的に時間が使えるようになります。データマネジメントにより、主に時間的な価値が生まれれば、より高度な業務に着手できる状態になるのです。
データカタログにおいてデータマネジメントの効果を得るためにできることは、何といっても、データを常に最新の状態にしておくことです。データが古いと、取得できるデータも古くなるため、今の意思決定の判断材料としては役に立たないものとなってしまいます。 また、データが不足している場合だと、データ分析に時間がかかるだけでなく、取得できるデータも一部不足しているはずです。不足分を補うための追加分析が生じるなど、本来得られるはずの時間的な価値の逆をいってしまうことになりかねません。 だからこそ、データカタログを作ってからも、収集されてくるデータのチェックは欠かさないようにしましょう。普段からデータカタログのメンテナンスができていれば、データ検索の手間も削減でき、時間に関する有利性が働くようになるはずです。
データカタログは、企業の意思決定の判断材料にもなるメタデータを扱ったものです。 膨大な量のデータが存在する現代では、最適なデータの発見をスピーディーに行うために、データカタログは必要不可欠となっています。 本記事では、データカタログの機能や作り方、活用されている事例を紹介しました。 データカタログを作成し常に整備しておくことは、時間的価値を高めることにも繋がりますが、怠れば企業の意思決定の妨げになる恐れがあります。改めてデータカタログの活用目的を明確にして、日々に適応した企業に役立つデータを収集していきましょう。
megumium
税理士法人に入社し、会計事務、決算申告業務を経験した後、ITベンチャー企業に転職。現在はITコンサルタントとしてシステム開発の上流工程に携わっている。官公庁、不動産管理業、メーカー、エネルギー事業など様々な業界のプロジェクトを経験し、基幹システム・ベンダー選定にも携わる。ライター業として書籍も執筆。
(TEXT:megumium 編集:藤冨啓之)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!