続いて取り上げたいのは、データ全体を要約する「代表値」として用いられることの多い「平均値」「中央値」「最頻値」の違いです。
平均値 | すべてのデータを平らに均(なら)した値 |
中央値 | すべてのデータを大きい(小さい)順に並べたとき、真ん中に位置する値 |
最頻値 | 最も頻繁に出現する値 |
どれが標本の特徴を最もよく表しているかを判断して代表値を選ぶことが重要です。なかでも最もポピュラーなのは「平均値」でしょう。「平均値」ときいて私たちが最も思い浮かべやすいのは「算術平均(総加平均)」ですが、平均値にはそのほかにも、幾何平均や調和平均といった種類があります。
算術平均(総加平均) | データの総和をデータの個数で割った値。最もポピュラー |
幾何平均(総乗平均) | データをすべてかけ合わせ、データの個数でn乗根を計算した値。変化率や利率の平均値などの計算で用いられる |
調和平均 | データの逆数を算術平均し、さらに逆数をとった値。速度や電気抵抗の平均値などの計算で用いられる |
ちなみに算術平均、幾何平均、調和平均には「算術平均≧幾何平均≧調和平均」という関係があります。
平均から一歩進んだときに見聞きすることの多い 「偏差」「分散」「標準偏差」。それぞれの違いは以下の通りです。
偏差 | あるデータの値と平均値の差 |
分散 | 偏差を二乗しデータの個数で割ることで、ばらつきの大きさを表しやすくしたもの |
標準偏差 | 分散の平方根をとった値 |
このように、データの値と平均値の差を図ることでデータのばらつき具合を把握するためにまず「偏差」がとられます。しかし、偏差だけではマイナスの値を考慮していないため、ばらつきの大きさを正確に把握するために「分散」の概念が生み出されました。分散は偏差を二乗することでマイナスをプラスに変え、すべてのデータを“ばらつき具合”という基準で比較できるようにしているのです。
しかし、二乗することで実際以上にばらつきが大きく見えてしまうという弊害が。そこで、分散の平方根をとった「標準偏差」でより実感に近いばらつき度合いを把握します。
偏差といえば、受験でおなじみの「偏差値」。元のデータが正規分布であると仮定して、平均50・標準偏差10に変換し、平均を標準偏差何個分上回っている、あるいは下回っているかで比較するという考えに基づいています。
なお、平均値や単位が異なる複数のデータのばらつき具合を比較する場合には、標準偏差を平均値で割った「変動係数」を用います。
誤解されがちな統計用語について、まとめて解説いたしました。
データで用いるのは数値ですが、だからこそ「言葉」を厳密に用いることが求められます。回帰分析やベイズ統計学などを用いてデータを分析し、予測や確率予想を行いたいという方は多いでしょう。そのはじめの一歩として、まずは基礎的な用語を見直してみてください!
進化するAIは仕事をどう変えるのか(第2回) この記事では、AIの進化が私たちの仕事にどのような影響を与えるのかを詳しく解説しています。統計学の知識を持つことで、AIの動作や背後にあるデータの理解がより深まります。
(宮田文机)
・栗原伸一 (著), 丸山敦史 (著), ジーグレイプ (その他)『統計学図鑑』オーム社、2017
・永野裕之『ゼロからはじめる! 統計学見るだけノート』宝島社、2018
・馬場 真哉 (著) 『Pythonで学ぶあたらしい統計学の教科書』翔泳社、2018
・偏差値┃なるほど統計学園高等部(総務省統計局) ・統計用語集┃統計WEB
・「母数」の意味とは?誤用しやすい「分母・サンプル数」との関係も┃TRANS.Biz
・サンプル数とは何か?┃独立行政法人労働政策研究・研修機構
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!