皆さんは、日々の仕事の中でデータを扱うことがあるでしょうか?
職場で意思決定をする場合に、その根拠を求められ、エビデンスを提示するために社内外のデータを分析したり、日常生活の中でも様々なデータを分析することもあるかと思います。しかし、データというものは分析方法を誤ると、関連性のない二つのデータが関連しているように見えたり、またはその逆であったり、一見正しいように見えても実は正しいとは言えない分析結果が出る場合があります。
今回の記事では、エクセルなどを利用して簡単なデータ分析を行う際に、陥りがちな誤りについて書いてみようと思います。ぜひ参考にしてみてください。
データ分析のよくある誤解として、一般の企業人でも使う機会が多い「相関係数」を例に挙げて説明していこうと思います。相関係数とは、2種類のデータの(直線的な)関係性の強さを −1 から +1 の間の値で表した数のことで、以下のような特徴があります。
(1) 正の相関が強いと相関係数が1に近づく
(2) 負の相関が強いと相関係数が-1に近づく
(3) 相関係数が1又は-1のときは完全相関という
(4) 相関係数が0の付近は相関がないといえる
正の相関とは片方の値が増加すると、それに比例してもう一方の値も増加することをいい、負の相関とは、片方の値が増加すると、それに比例(負の比例)してもう一方の値は減少することをいいます。
有名な例でいうと、気温が高いとビールが売れる傾向にあり、これは気温とビールの売り上げに「正の相関がある」と言えるわけです。
では、具体的な例をあげて説明してみましょう。
下の表は、ある賃貸不動産について、賃料、 広さ、築年数を記した仮想的なデータです。
また、今回は相関係数を話題にするのですが、多くの人が誤解しているので、このデータの基づいた散布図も用意してみました。
さて、あなたは今、この賃貸不動産のデータについて、それぞれの変数(賃料、広さ、築年数)の間に、どのような関係があるのか調べて欲しい、と上司に言われたとしましょう。
直感的には、「部屋の広さが広くなると、賃料も高くなる」「築年数が古く(大きく)なると、賃料は安くなる」と予想できると思います。しかし、「どれだけ広くなると、どれだけ高くなる」のか、「そもそも本当に両者は比例関係にあるのか、もしくはどの程度(正確な)比例関係にあるのか」ということは、感覚ではわかりにくいです。そこで、両者をそれぞれ縦軸、横軸にとって、グラフを作成することにより、両者の関係性を可視化するわけです。
データ分析には疎くとも、エクセルは使える人は多いので、多くの人がまず行うのが、それぞれのデータの散布図を調べるというものです。 2つのグラフには回帰直線(※)の式とR2値が記載されていますが、まずこの R2値を相関係数だと勘違いしている人が非常に多いです。(おそらくこれは、エクセルのグラフオプションで比較的簡単に値が求められるためでしょう)。
しかし、これは相関係数ではなく、決定係数と呼ばれるもので、yの値がどれくらい、xによって説明されているか、つまり、この回帰直線がどれくらい良いモデルか、ということを表した数値であり、必ずしも相関係数の2乗と一致するものではありません。
※回帰直線とは 2つの変量に相関関係があった場合に、その2つの変量が満たすべき直線のことをいいます。良い回帰直線ほど、観測されるデータがこの直線の上に乗ります(この直線からはみ出すデータが少ないです)。
それでは本題に戻って、賃料と広さ、賃料と築年数の間に、どれほどの相関があるのかどうかを調べていきます。
相関係数はエクセルでは CORREL関数を用いて求めることができます。家賃と広さ、賃料と築年数の相関係数をそれぞれ 求めると、0.8272…と 0.5350…という値が得られます。さて、ここで少し考え てみましょう。賃料と広さは比較的強い正の相関(広さの値が大きいほど、賃料の値も大きい)となり、一般的な感覚と一致します。
一方、強いとは言いがたいものの、賃料と築年数にも正の相関が見られ、古い建物ほど賃料が高いという不思議な関係が見受けられます。
これは、「賃料と築年数の相関」を取ったつもりでも、広さの影響がこの2変量の間に入ってくるためです。では、この影響を取り除くためにはどうすれば良いのでしょうか。
広さの影響を取り除くには、「偏相関」という考え方を使用します。この偏相関係数を用いることで、広さの影響をなくした、賃料と築年数のみの相関係数を求めることができるのです。
偏相関の式の解説は統計学の書籍に譲るとして、この偏相関を求めてみると、-0.4126…という値が得られ、確かに古い建物ほど賃料が安くなるという関係が見て取れます。今回の場合は、古い建物ほど広いという傾向が同時にデータから見て取れるため、築年数が上がると家賃も上がってしまうという奇妙な相関が出てしまったのです。
相関係数や決定係数は、エクセルを使って簡単に求めることができ、2変量の関係がわかりやすいので、多くの人が頼りがちな指標ですが、その意味をきちんと理解しておかなければ、逆(表面的な)分析をしてしまうことになります。
これを機に、日頃からデータ分析を行う人は、統計について詳しく勉強してみるのもいいのではないでしょうか。
著者:岸田 英(キシダ ヒデ)
【経歴】
2011 年 東京大学工学部卒
2011 年 インフラ企業に就職
2015 年 同社退社
2015 年 エスカルチャー株式会社設立 代表取締役兼学習塾 ESCA 塾長
【概要】
東京大学卒業後、サラリーマン経験を経て、2015 年にエスカルチャー株式会社を設立。「受験勉強では終わらない、社会で生きる力を養う」という理念で、学習塾の運営と、海外インターン/海外留学コンサルティング事業、就活支援事業を展開している。 学習塾の運営においては、自らも教壇に立ち、サラリーマン時代の経験を活かして、「学問の体系化」「理論と現実」「回答の見せ方」「問題文を読む意味」「学習における知識と思考のマネジメント」など、勉強が社会にどのようにつながっているのかを教えている。
【ウェブサイト】
http://www.esculture.com/
https://www.eduforglobal.com/
(著者:岸田 英)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
ChatGPTとAPI連携したぼくたちが
機械的に答えます!
何か面白いことを言うかもしれないので、なんでもお気軽に質問してみてください。
ただし、何を聞いてもらってもいいですけど、責任は取れませんので、自己責任でお願いします。
無料ですよー
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!