About us データのじかんとは?
データ活用は過度な期待を超え、徐々にビジネスパーソンの基礎的なノウハウとして定着し始めています。データサイエンティストでなくとも、データ分析の基礎的な考え方やその手法について学びたいという方は多いはず。
皆さんは、2021年3月に初学者向けの入門書『データ分析のための統計学入門 原著第4版』日本語版pdfが何と無料で公開されたのをご存じでしょうか?
同書籍は以下のリンクから、閲覧可能です。
http://www.kunitomo-lab.sakura.ne.jp/2021-3-3Open(S).pdf
本記事では同書を書評し、データ活用・統計学初学者におすすめの使い方をレクチャーします。
『データ分析のための統計学入門』は米国のNPO OpenIntroが発行した書籍で、Mine Cetinkaya-Rundel、David M Diez、Christopher D Barrの3名のデータサイエンティストによって執筆されました。
今回無料で配布されたのはその第4版。翻訳者は日本統計学会長を2013年6月-2015年5月まで務めた国友直人氏、東京経済大学でデータサイエンスを研究する小暮厚之氏、吉田靖氏の3名です。
そもそも日本統計学会より定価1,980円で刊行された同書籍。PDF版が国友氏のウェブサイトで無料公開されたことはデータサイエンス学習者の間で話題になりました。
同書は全9章+付録A,B,Cで構成されており、その内容は以下の通りです。
第1章 データ分析への誘い
第2章 統計データの記述
第3章 確率
第4章 確率変数の分布
第5章 統計的推測の基本
第6章 カテゴリカル・データの統計的推測
第7章 量的データに対する推測
第8章 線形回帰への入門
第9章 重回帰とロジスティック回帰
付録A 回答例(pdf版では省略)
付録B 本書で利用したデータ(日本統計協会HPよりダウンロード可能)
付録C 分布表
実際に筆者が同書を読んでみた感想を、良い点、イマイチな点に分けてご紹介しましょう。
「データ分析のための」と銘打たれている通り、実データをどう捉え推測につなげるのかという基本的な考え方が丁寧に積み上げるようにして、同書では執筆されています。
2021年3月に執筆された訳者まえがきにも「本書は大学に入学して初めて統計学を学ぶ学生、大学に進学を目指す高校生、ビジネスなどの諸分野でデータ分析をしている社会人のために書かれた書籍である(※)」と書かれています。
確率とは何か、条件とは何か、信頼区間はなぜ設定されるのかなど、基礎から統計学の考え方を丁寧に押さえていきたい方におすすめです。
※…David M. Diez, Mine Çetinkaya-Rundel, and Christopher D. Barr(著)国友直人・小暮厚之・吉田靖(訳)『データ分析のための統計学入門 原著第4刷』日本語pdf公開版(2021-3-3)、p5
豊富な例題、確認問題により、学んだ内容を血肉にできるよう促してくれるのが、同書の最も実践的なポイントです。近年統計学、データサイエンスの入門者向けの書籍は増えましたが、易しい内容のものほど解説メインとなり、概念がわかった気になっても実践能力は身につかず……ということも少なくないように見受けられます。
実データとともに問題を解き進める形で解説がなされ、節ごとの練習問題、さらにとどめとばかりに用意された章末練習問題にとり組むことで、得た知識をかなり「身につけられる」はずです。
同書pdf版最大の問題は、せっかく豊富に用意された練習問題、章末練習問題の回答が省略されてしまっているということです。いくつかの回答例は印刷版に掲示されるとのことですが、さすがに無料版では限界があるということでしょうか。
とはいえ、OpenIntroのサイトのリンクよりで無料でダウンロードできる同書の英語版pdfには回答がしっかりと用意されているため、そちらで答え合わせをすることは可能です。
また、省略されているのはあくまで節・章の最後に用意されている練習問題だけで、本文中で出題される例題に対しては直下、もしくは脚注にて回答がなされているため、書籍を読み進める分には問題ありません。
同書が初学者向けに作成されており丁寧に説明がされていることには疑いようがありません。しかし、専門書、しかも翻訳によるものということで「文章が固い」「難しい」と感じられる部分はありました。
書店の店頭に並ぶ入門書というよりは、大学の授業で使う教科書くらいの難易度を想定していただけるとわかりやすいかもしれません。
また、ところどころ校正不足の部分も見受けられました。例えば、第3章「確率『確認問題3.19』」の「集合Aを2つのさいころ投げ,和が12以下の事象としよう(※)」における「以下」は解答例からすると「未満」が適切ではないかと筆者は感じました。
もちろん基本的には理解しやすく、また正しく記述された書籍ですが、このようにところどころ注意が必要な箇所もあります。
全くの初心者というよりは、より平易な入門書を何冊か読んだ方が、統計学を練習問題を通しておさらいしつつ身につけるための教材として利用するのがベストかもしれません。
※…David M. Diez, Mine Çetinkaya-Rundel, and Christopher D. Barr(著)国友直人・小暮厚之・吉田靖(訳)『データ分析のための統計学入門 原著第4刷』日本語pdf公開版(2021-3-3)、p5
そもそも『データ分析の為の統計学入門』(原題:『OpenIntro Statistics』)の原書を発行しているOpenIntroとはどのような組織なのでしょうか?
そのサイトにアクセスすると「私たちのミッションは無料で、透明性があり、教育へのハードルを下げる教材を作ることです」とトップに記述されています。
そのミッションに従って無料で発行されている書籍は『OpenIntro Statistics』だけではありません。『Intro Statistics with Randomization and Simulation(ランダム化とシミュレーションによる統計学入門)』『Intro Statistics for the Life and Biomedical Science(生命と生物医科学のための統計学入門)』など6冊のテキストに同サイトからアクセス可能です。
もちろんすべて英語のためなかなかハードルは高いですが、DeepL翻訳などを駆使すれば読み進めることも不可能ではないでしょう。
近年データ活用にまつわる教育機会のフリー化・オープン化の流れは進んでおり、総務省が無料のオンライン講座『社会人のためのデータサイエンス入門』を開講したことなども話題となりました。
いまや無料で「質の高い」教材がインターネットを通して豊富に提供されている時代です。上手に活用して学習を進めていきたいですね!
『データ分析のための統計学入門』pdf版が無料で配布されたというニュースを皮切りに、教材のフリー化にまで話題を進めてきました。
カイ二乗検定などで知られるカール・ピアソンは統計学を「科学の文法」と称しました。私たちが科学的アプローチを取るうえでなぜ統計学が重要なのかもじっくりと理解できるのが、『データ分析のための統計学入門』のメリットです。
みなさんもぜひ、同書の問題を読み進めて同じように感じられるか確かめてみてください。
【参考資料】 ・David M. Diez, Mine Çetinkaya-Rundel, and Christopher D. Barr(著)国友直人・小暮厚之・吉田靖(訳)『データ分析のための統計学入門 原著第4刷』日本語pdf公開版(2021-3-3) ・OpenIntro Statistics┃OpenIntro ・『データ分析のための統計学入門』PDFが無料公開 データサイエンティストたちが執筆┃Ledge.ai
(宮田文机)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!