「ビッグデータ」という言葉をよく耳にするようになりました。ビッグデータの重要性だったり、ビッグデータで世界が変わる、と言ったなんだかちょっと大げさ話だったり、グーグルがビッグデータ解析フォームにイーサリアムを追加した話だったり、なんだかよくわからないけれど、とりあえず集めなきゃいけないと思っている話だったり、ビッグデータで人の本性がわかる、という話だったり、始まったと思っていたらもうすでにビッグデータ時代の終焉、という言葉も出現していたり。
しかし、「そもそもビッグデータとは何ですか?わかりやすく説明してください」と改めて聞かれると、答えに窮する人も多いのではないかと思います。そこで今回は、ビッグデータの定義から活用例までご紹介します。
ビッグデータというと、つい大量のデータのことを思い浮かべてしまいますが、それだけを意味しているわけではありません。
ビッグデータとは、「様々な形をした、様々な性格を持った、様々な種類のデータのこと※1」を指します。実はビッグデータは、データの量(Volume)、データの種類(Variety)、データの発生頻度・更新頻度(Velocity)の3つのVからなり、いずれも重要な要素です※2。
しかし、時代のニーズやデータ活用の難しさを考慮すると、これらの3Vだけでは十分ではありません。近年、ビッグデータの特徴は5Vとして拡大されており、データの真実性(Veracity)やデータの価値(Value)も重要な要素として加わっています。真実性は、データの信頼性や品質を指し、不正確なデータやノイズが多いデータは、分析の結果を歪める可能性があるため、真実性が重要です。価値は、ビッグデータそのものの価値ではなく、それをどのように解析・活用するかで得られるインサイトや知見の価値を指します。
IT用語辞典では、ビッグデータは下記のように定義されています。
ビッグデータとは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
ビッグデータの定義がわかったところで、今度はビッグデータの分析方法を見ていきましょう。例えば、あなたが新しいビールを売り出したいと考えたとします。
あなたが(1)特約店別の出荷情報と(2)今年は晴れる日が多いかどうか、のビッグデータを持っている場合、(1)から「地域別の売上」を把握することができますが、(2)から「その地域の天気は悪い日が多い」ということがわかる場合は、天気の悪そうなエリアを避けたマーケティング戦略を練ることができます。(1)と(2)のビッグデータを使って「ではどこで売れるのか」というビジネス拡大の課題のヒントを得ることができるのです。どこで売れるのかが分かれば、そこに広告費を集中投下するというマーケティングの意思決定をすることができ、その分得られる利益も変わってきます。
なおビックデータの対比としてよく耳にする「スモールデータ」とは、ビッグデータの特定のレコードだけを取り出し、扱いやすい形式にすることで有意義な洞察を可能にするデータなどです。
スモールデータについては、こちらの記事で解説していますので、併せてご確認ください。
1988年、インターネットの黎明期において、ビッグデータという言葉や概念はまだ存在していませんでした。しかし、技術の進化とともに、情報の収集と分析の重要性が徐々に認識されるようになりました。2008年までに、Apple、Google、Facebook、Amazonなどのビッグテック企業が台頭し、彼らはデータを中心としたビジネスモデルで急速に成長を遂げました。これらの企業は、ユーザーの行動や嗜好をデータとして収集し、それをもとにサービスを最適化することで巨大な利益を上げることに成功しました。
2018年には、ビッグデータの活用はビッグテック企業だけでなく、多くの企業や業界で一般的となりました。ビッグテック企業は、その巨大なデータベースと先進的な分析技術を活用して、新しいサービスや製品を次々と生み出し、時価総額で世界のトップを争う企業となりました。平成30年間の間に、データは新しい「石油」とも称されるほどの価値を持つものとなりました。
ビッグテック企業の成功は、データの収集と分析の重要性を世界中の企業に示しました。彼らは、ユーザーのデータを基にしたパーソナライズされたサービスや、高度なAI技術を駆使した製品を提供することで、競争優位性を築き上げました。そして、それは平成の時代を通じて、データとテクノロジーがビジネスの中心となることを示す象徴的な出来事となりました。
この30年の間に、ビッグデータとビッグテックは、ビジネスのあり方や社会の構造を根本から変える力を持つことが証明されました。そして、これからの時代も、データの活用と技術の進化が、新しい価値を生み出し続けることでしょう。
ビッグデータは「様々な形をした、様々な性格を持った、様々な種類のデータのこと」と前述で解説しましたが、具体的にどのようなデータを指すのでしょうか?総務省の平成29年版の情報通信白書では、ビッグデータを以下のように定義しています。
生成元 | 種類 | 説明 |
政府・行政 | オープンデータ | 『官民データ活用推進基本法』を踏まえ、政府や地方公共団体などが保有する公共情報 |
企業 | 知のデジタル化 | 農業やインフラ管理からビジネス等に至る産業や企業が持ちうるパーソナルデータ 以外のデータ |
M2Mデータ | 工場等の生産現場におけるIoT機器から収集されるデータ、橋梁に設置されたIoT機器からのセンシングデータ(歪み、振動、通行車両の形式・重量など)等 | |
個人 | パーソナルデータ | 個人の属性情報、移動・行動・購買履歴、ウェアラブル機器から収集された個人情報など |
引用元:総務省 平成29年度版 情報通信白書「ビックデータの定義及び範囲」
膨大な量の情報を効率よく処理し、有益な情報や知見を抽出する手段として、ビッグデータの活用がますます重要視されていますが、ビッグデータの活用にはさまざまなメリットがあります。
ビッグデータの活用によって得られる主要なメリットとして、主に以下の2点が挙げられます。
順に解説します。
ビッグデータの1つ目のメリットは、高精度な効果検証の実現です。ビッグデータを分析することによって、直感的で仮説や経験を必要としていた従来の分析とは異なり、論理的かつ客観的な予測ができるようになります。
また、リアルタイムでの情報分析もできるため、商品やサービスの需給予測やアクセス分析に役立てられるケースが増えています。これによって、マーケットやトレンドの変化に対して迅速かつ柔軟な対応が可能です。高精度での効果検証や将来予測によって、リソースの有効活用や企業間競争での優位性獲得にもつながります。
このように、データを収集・蓄積できる環境が構築されていると、マーケティング施策の実施後にデータ分析が行えます。企業にとって「高精度で効果検証が可能になる」というメリットがいかに重要であるか理解できるでしょう。
ビッグデータを分析することで、高精度な現状把握もできるようになります。高精度な現状把握が可能になる理由は、ビッグデータは膨大な量の情報を収集・蓄積し、データベースを高頻度で更新しているためです。
たとえば、どこ(ネットや紹介など)を経由して来店・アクセスし、どのような点に着目して商品を選択したのか、現在どの商品やサービスがよく閲覧され購入されているかなど、顧客が商品やサービスを購入するまでの行動パターンを深く分析・理解できます。このように、高精度なリアルタイムでの情報を把握するによって、より効果的なマーケティング戦略ができ、結果として以下のようなメリットにもつながります。
上記のようなメリットにもつながる点と、高精度での現状把握が可能になることがビッグデータのメリットといえます。
世の中のデータは「構造化データ」と「非構造化データ」に分類されます。「構造化データ」は、二次元の表形式など数値や記号で整理されるデータであり、「非構造化データ」は、規則性がなく表形式で表せない定性的なデータです。
ビッグデータは「非構造化データ」に該当しますが、非構造化データは全データのおよそ8割を占めているといわれています。しかし、データベースなどで活用できるように構造化されたデータとは異なり、画像や音声などのデータベースで活用するのが難しい非構造化データはこれまであまり活用されてきませんでした。
そこで、近年のAIの発達などによって、これまで扱うことが困難とされていた非構造化データを活用できるようになったため、非構造化データであるビッグデータも注目を浴びるようになりました。
ここでは、そのようなビッグデータを活用する際のデメリットや問題点について解説していきます。主要なデメリットは以下のとおりです。
順に紹介します。
ビッグデータの活用における大きなデメリットとして、「保守管理と運用負担の増加」が挙げられます。
膨大なデータを取り扱うことから、データの整理や選定、ストレージの最適化など保守と運用にかかる作業負担が増加します。大容量のデータを処理・保存するには、そのデータ量に応じたストレージが必要です。また、ハイクオリティのデータを管理・更新することも運用上の課題となります。
そのため、どのデータを収集・蓄積し、どのように分析・活用すべきというデータの選定が必要になります。また、データの前処理も前提に、運用方針を明確化し、戦略的に保守管理・運用する必要があります。
ビッグデータには個人の属性にかかる顧客情報などパーソナルなデータも多数含まれるため、セキュリティ対策の強化が不可欠です。
たとえば、購入履歴やアクセス履歴など個人情報に関係する膨大なデータが流出すると、個人情報の漏洩やプライバシーの侵害につながる危険性があります。また、カメラやセンサーなどのIoT機器を利用したデータ収集についても、必要なデータのみを残し、残りは削除するなどセキュリティ面に配慮すべきです。
このように、データ収集についても、情報漏洩を防止するためのセキュリティ設計が求められます。よって、ビッグデータの取り扱いには細心の注意や対策が必要ですが、それに伴う組織全体での意識向上とシステムへの投資が求められます。
ビッグデータの活用において、ビッグデータを運用する人材不足も重要な問題となっています。
大規模で複雑なビッグデータを適切に運用するためには、専門的な知識や経験が必要です。データエンジニア、データサイエンティスト、ビッグデータアーキテクトなどのビッグデータを扱える高い技術的知見とビジネスに対する深い洞察力を兼ね備えた人材が求められています。しかし、圧倒的な人材不足状態にあり、ビッグデータに知見のある企業や人材へ外注するケースが多くなっています。
実際に、独立行政法人情報処理推進機構が公表している「DX白書2021」によると、IT人材の人数が「大幅に不足している」と回答した企業が40.8%、「やや不足している」と回答した企業が47.4%であり、IT人材の数が足りないと答えた事業所の合計が約9割という結果でした。
そのため、多くの企業では、採用戦略以外に、自社の人材育成も検討する必要があります。
ビッグデータの活用範囲は非常に広く、下記のように多岐に渡ります。
それでは、実際にどのような場面でビッグデータが使われているのかをみてみましょう。
防犯カメラは膨大なビッグデータを集める手段として注目されています。かつては映像を記録するだけのものでしたが、現在では「手に取ってすぐ棚に戻したもの」「かごに入れたけれど棚に戻したもの」など、購入に至らなかった商品のデータ分析に使われています。
これらのデータは、顧客の行動データを解析することでさらなるマーケティングに役立てることが可能になるのです(参考記事)。
Nシステムは「自動車ナンバー自動読取装置」のこと。これは警察が設置した監視システムであり、走行中の車のナンバーをすべて読み取ると同時に、手配車両のナンバーと照合します。このシステムは犯罪捜査だけではなく、渋滞の予測やドライバーへの警告などにも利用されています※1。
駅の改札でタッチ&ゴーをするICチップ付きの交通カード(SuicaやPASMOなど)。このカードは利用客が電車に乗る際の支払いに使われるだけではなく、タッチした際の情報が改札機を通して鉄道会社に送られ、自社内システム(旅行業等※4)で利用されています。さらに、これらのカードを使って買い物をすると、「誰が」「何を」「何回買った」のかが自動的にビッグデータとして蓄積されていきます※3。
選挙速報でよく見る出口調査も、ビッグデータの例といえます。出口調査は投票所から出てくる人に、「誰に投票したか」を聞いて行います。調査対象者は無作為に選ばれますが、その数は調査投票区の人口密度で決まってきます※5。
最近では、出口調査による予測よりもかなり前に選挙結果を予測できるようになっています。Yahoo!JAPANのビッグデータレポートチームは、2013年の参議院議員選挙の結果を、「Yahoo!検索」のデータや過去の得票数の結果などから予測し、驚異的な精度の選挙予測を行っています。
さて、新しいビールを実際に発売しようと考えたとき、懸念点として存在するのは「在庫保有コスト」や「在庫切れ」などによる機会損失です。特にビールは季節による需要の変化が大きいため、精度の高い発注・生産計画が必要となります。
富士通は、ビッグデータを活用し、複数の需要予測のシナリオに基づき、一定期間先読みができるSCM(サプライチェーンマネジメント)向けのモデル予測制御技術を開発しました。これにより、リスクを抑えつつ長期的な利益を最大にする計画を立てることが可能になっています(参考記事)。このように、ビッグデータを使えば高度な意思決定も可能です。
ビッグデータが普及したのは、コンピューターやインターネットの急速な発達によるものが大きいですが、これまで「3つの流れ」によって発達してきました。第一の流れは「データのデジタル化とコンピューターの高速化」、第二の流れは「インターネットの発展」、そして第三の流れは「ビッグデータ時代のはじまり」です※3。
第三の流れに拍車を掛けたのが、「Hadoop(ハドゥープ)」と呼ばれる技術。これは、「大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォーム」のことです(参考記事)。これにより、ペタバイト(1ペタバイトは1テラバイトの1000倍)レベルの非構造化データ(メールや画像、動画などのデータ)の超高速処理が可能になりました。Hadoopの登場で、大量の情報を低コストで分析できるようになりました。
続いて、ビッグデータの活用例をみてみましょう!
オープンデータは、政府・自治体が持つ情報資源を開放することで、革新的アイデアやイノベーションが生まれるきっかけを生み出そうというものです。IT業界の企業にとっては、オープンデータの情報を利用することで新たな商機を得ることが可能ですし、行政にとってはあらかじめ情報公開を行うことで行政に対する問い合わせが減少し、業務効率化につながります。
このオープンデータとビッグデータを組み合わせることで、様々な用途に応用できます。欧米では、犯罪を予測するサービスや農作物の収穫予測などにオープンデータが使用されていますが、日本でも静岡県が「ふじのくにオープンデータカタログ」を2013年に立ち上げました。こちらは観光情報・防災情報など県や市町村のデータが利用できるようになっています。また、「税金はどこへ行った? – WHERE DOES MY MONEY GO? –」というサイトでは、自分が支払った税金の使途がインフォグラフィックで見ることが可能です。現在は一部の自治体の結果のみ見ることができますが、ビッグデータの活用例として興味深いコンテンツといえます。
オープンデータに関しては、ニューヨーク市の取り組みである「NYC Open Data」が参考になると思います。これについて知りたい方は、以下のページを参考にしてください。
IBMが開発したAI(「コグニティブ(認知型)・コンピューター」と紹介されることもあります)である「ワトソン」。アメリカのクイズ番組で賞金100万ドルを獲得したことで有名です。ワトソンは、事前にクイズに出題されそうな情報をインプットしておけば、機械学習(人間がもつ学習能力と同じく、コンピューターも経験から学習し、将来予測や意思決定を実現できるようにする技術や手法)や統計の解析などによってクイズに答えることができます。音声や画像を認識できたり、経験から学んで自ら賢くなっていったりするなど、人間の知能に非常に近づいているAIです。
このワトソンの機能とビッグデータを組み合わせた使い方が始まっています。例えば、アメリカとタイの医療機関では、医療の現場にワトソンを導入。がん治療のガイドラインや医学文献の抄録、図書館の公開データなど分析し、「この症状ならこの診断になる」とか「この治療をしたらどうか」など、医師の判断をサポートしています(参考記事)。このほか、資産運用や人材育成支援などにもワトソンは使われているようです(参考記事)。
政府は東日本大震災による震災復興・日本再生にビッグデータの活用の重要性を提言しており、ICT政策の課題として、平成24年の情報通信白書では以下の方向性を示しています。
引用元:総務省 平成24年度版 情報通信白書「ビッグデータの積極活用による成長の実現に向けて」
環境整備や人材確保、データの扱い方といった基本的な方針が整理されています。総務省によって提言されることによって、今後の法整備や国としての支援の方向性が読み取れるようになるでしょう。
2016年に利用が始まったマイナンバー制度。マイナンバーとは国民全員に割り当てられる12桁の番号のこと。現在は「社会保障」「税」「災害対策」の3つの分野での利用が認められています。利用分野については、今後利用範囲拡大も議論されています。
社会保障、とくに医療費に関しては、2014年度に40兆円を突破。医療費削減が課題になっています。医療分野でマイナンバーが利用されるようになれば、レセプト情報が医療機関で共有され、重複した診療等を減らすことができ、医療費削減につながります。このレセプト情報や電子カルテなど医療情報のデータが集まった「医療ビッグデータ」が実現すれば、大学や製薬会社の研究・新薬開発などにも役立つでしょう。もちろん個人が特定されない仕組みが必要ですが、医療の質が向上するのは言うまでもありません。
米国・EU諸国ではビックデータ活用に向けて積極的な取り組みを進めています。特に米国は政府として戦略的に取り組む姿勢を示しており、2012年より2億ドル以上の巨額な予算をビックデータの研究開発に投じています。
行政・機関 | 内容 |
科学技術政策局(OSTP) |
・ビックデータ活用の実現に向けたイニシアチブの作成 |
国立科学財団(NSF) |
・データサイエンティスト育成のための大学でのプログラム |
エネルギー省 | 2500万ドルかけた新たな研究機関(SDAV)の設立 |
国立衛生研究所(NIH) | 200テラバイトにものぼる1,000のゲノムプロジェクトのデータのクラウド上での提供 |
国防高等研究計画局(DARPA) |
・年間2,500万ドルを4年投じる「XDATA program」の実施 |
国防総省 |
・ビックデータ新規研究プロジェクトに6,000万ドルの投資 |
地質研究所 | 地球システム科学に関するビックデータの分析等が出来る場の科学者への提供 |
引用元:総務省 平成24年度版 情報通信白書「ビッグデータの戦略的活用に向けた諸外国の取組」
総務省によって外国のビッグデータの活用状況も整理されているため、海外におけるビッグデータの活用事例について知りたい方は引用元の文献を確認してみましょう
ビッグデータの活用は、下記のような業務が必要のため、人の手では複雑かつ膨大な作業になります。
これらの支援をサービスとして提供している企業を利用することで、ビッグデータ活用の負担を大きく軽減してくれます。
ビッグデータを分析する高度なAIアルゴリズムとそれを活用する独自のソリューションの創造を強みにしています。主に下記のようなサービスを展開しており、“テーマ”、“活用データ”、“分析手法”、“産業”といった視点で様々なビッグデータの支援・活用を公式サイトで紹介しています。
また、以下のような企業のリクエストにオーダーメイドで対応しています。
ビッグデータの運用やコンサルティングまで幅広い業務を丸っと依頼できるサービスです。
【データのじかん】を運営するウイングアーク1stでは、高信頼・高性能なデータウェアハウス(DWH)と企業を取り巻くさまざまなデータを価値ある情報に変える情報活用ダッシュボードの連携による、ビックデータの活用ソリューションを提供しています。 DWHのSymfoware Analytics Server(富士通)は、従来、数時間かかっていた大量データの集計の処理時間をわずか数秒にまで短縮するので、情報活用ダッシュボードであるMotionBoardで迅速なビックデータの活用を実現してくれます。
エヌ・ティ・ティ・データ(NTT DATA)では、下記のようなビッグデータの活用をトータルで支援するサービスを提供しています。
オーダーメイドのソリューションの他に、ビックデータ活用をパッケージ化した製品も多数提供しています。
株式会社帝国データバンクは主に企業を専門対象にした日本国内最大手の信用調査会社で、ネットでは得ることが困難な下記のような膨大な情報をデータサービスとして提供しています。
といった企業の要求に対応する様々なサービスを提供しています。 また株式会社帝国データバンクではビックデータの分析・活用を研究視点で取り組んでおり、社会的に意義のあるテーマのデータ分析結果を公開・提供しています。
組織で新しいことにチャレンジしようとすると、社長や上司から「導入した際の費用対効果」の検証を求められることも多いと思います。ビッグデータの導入に関しても同様でしょう。しかしながら、ビッグデータはそもそも試行錯誤を繰り返して情報・ノウハウを蓄積していくものです。さらに、ビッグデータが結果を出し始めるにはある程度の年月が必要になります。ですから、従来のように検証をしてから導入を検討するという意思決定プロセスにはそぐわないといえます。
もし本気でビッグデータを導入しようと考えている場合は、トライ&エラーを許容し、迅速な意思決定権を付与しつつ、ある程度の時間を覚悟する必要があるでしょう。このように、経営層の意識改革が必要なのです。
ビッグデータの利用に関しては、Suicaのデータの外部販売が問題になるなど、まだまだ乗り越えなければならない課題も多いです。ベネッセの個人情報流出問題など、消費者は依然として企業の個人情報の扱いに関してナイーブになっています。このような状況下でいかにビッグデータを活用していくのか、各自治体・企業には適切な対応策が求められています。
ビッグデータの活用事例など関連記事をもっと読みたい方はこちらからどうぞ。
(安齋慎平)
※1 岡村久和 監修『IoT時代のビッグデータビジネス革命』(2018年、インプレス社)
※2 野村総合研究所「ビッグデータの真実~ビッグデータの誤解を解く~」(PDFファイル)
※3 稲田修一『知識ゼロからのビッグデータ入門』(2016年、幻冬舎)
※4 大槻知史 「Suicaシステムの概要」(PDFファイル)
※5 朝日新聞出版「知恵蔵」(コトバンク)
※6 デジタル大辞泉(goo国語辞書)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
ChatGPTとAPI連携したぼくたちが
機械的に答えます!
何か面白いことを言うかもしれないので、なんでもお気軽に質問してみてください。
ただし、何を聞いてもらってもいいですけど、責任は取れませんので、自己責任でお願いします。
無料ですよー
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!