About us データのじかんとは?
自然な日本語翻訳を実現するDeepL翻訳、指定したフレーズとArt Styleをもとにイラストを一瞬で作成してくれるWOMBO Dream、チェス、将棋、囲碁で既存のソフトを圧倒したアルファゼロ……。
近年、「こんなことまでできるのか!」と驚かせてくれる数々の技術の多くには機械学習が活用されています。
さて、「機械学習とはいったい何なのか」「なぜ近年ここまで発展したのか」など、気になるポイントをわかりやすく解説してくれる書籍『はじめての機械学習 中学数学でわかるAIのエッセンス』が2021年7月に刊行されました。
本記事ではその内容をご紹介し、どんな点が役に立ったのかや合わせて使いたい補助教材についてもお伝えします!
『はじめての機械学習 中学数学でわかるAIのエッセンス』(以下、『はじめての機械学習』)は、“専門家が「言葉」で「基礎」から「積み上げる」ように機械学習について教えてくれる書籍”です。著者の田口善弘氏は2022年現在中央大学中央大学理工学部教授としてバイオインフォマティクスの研究に取り組んでおり、1996年第12回講談社出版文化賞科学出版賞を受賞する、スタンフォード大学が選んだ世界のトップ2%研究者に選ばれるなど、錚々たる経歴を持つ人物。
しかし、『はじめての機械学習』では「~は大学の理工系1年生程度の数学力が要求されてしまうので説明はできない」という表現が何度か使われます。
それだけ、本書は“わかりやすさ”を重視して執筆されているということです。
それは、機械学習や統計学の用語を“理工系の1年生程度”の数学力のない人にもわかりやすく説明している資料がそれだけ少ないからでしょう。
例えば、「主成分分析」のWikipediaを見てみてください。
2022年2月1日現在、最初の2行には以下の文章が記述されています。
主成分分析(しゅせいぶんぶんせき、英: principal component analysis; PCA)は、相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の一手法[1]。データの次元を削減するために用いられる
引用元:主成分分析┃Wikipedia
いかがでしょう。
統計学について勉強したことがない方にとってはチンプンカンプンの内容ではないでしょうか。少し勉強したことのある方でも「次元の削減」がデータ分析においてどのような意味を持つのか、全員が完璧に理解できているわけではないはずです。
そこで田口教授が説明に用いるのがアーティスト福田繁雄が生み出した『ランチはヘルメットをかぶって…』という芸術作品。一見何が何だかわからない鉄塊のように見える作品にある方向から光を当てることで、「バイク」が影として浮かび上がってくるという一種のトリックアートです。
これがなぜ主成分分析とつながるのか──。詳しくは書籍でご確認いただきたいのですが、3次元の鉄塊と2次元の影の関係をもとに説明を受けると、ナルホド確かに「なぜデータの次元を削減することがデータを分析することにつながるのか」がわかります。
『はじめての機械学習』は以下の8章で構成されています。
第1章:埋め込む…k近傍法、主成分分析
第2章:足し上げる…比重和、線形回帰、最小二乗法、線形判別
第3章:かけ合わせる…ロジスティック回帰、マルコフ過程
第4章:枝分かれする…決定木、ベイジアンネットワーク
第5章:次元をあげる…カーネルトリック
第6章:正しいって何?…用途と目的に合わせて手法を選ぶこと、AUC
第7章:深層学習…パーセプトロン、深層学習、CNN、モンテカルロツリーサーチ、強化学習、GAN
第8章:量子計算機…量子アニーリング、データ駆動型知性
「…」の後ろに書かれているのは、各章で取り扱われているトピックの例です。見慣れない言葉の並びに、「やっぱり難しい内容なんだろうな……」と抵抗感を覚えた方もいるのでは?
しかし、タイトルに“中学数学でわかる”という文字列が含まれていたことをもう一度思い出してください。そもそも一般的な機械学習の学習書で取り扱われるのは第3章以降の内容がほとんどで、「主成分分析」や「k近傍法」についてはすでに理解されているものとされがちです。
それでも本書でそれらが取り扱われているのは、「機械学習は何をやっているのか?」を基礎から積み上げるように解説することを目指しているから。また、『500日のサマー』『All You Need Is Kill』『シックス・センス』など、おそらく福田教授の趣味が反映されているであろうサブカルチャーを用いた例え話が随所で挿入されるので、それらを一服の清涼剤としつつ、筆者のような文系脳でも、楽しく読み進められるはずです(※ただし、『シックス・センス』の重要なネタバレが第5章で明かされるためその点、了解の上読み進めましょう)!
ここまで、『はじめての機械学習』の“わかりやすい”という特徴について語ってまいりました。
しかし、やはり「この記述は要するにどういうことなんだろう?」と悩む場面も筆者には何度かありました。
非常に簡単な言葉で説明されているとはいえ、やはり本書の内容を十分に理解するには取り上げられているような機械学習の手法を実際に使ってみて、そこで浮かんだ疑問を解消するために再度読み直して……と何度か行き来することが必要なように思われます。
本書と並行して使用することで理解の役に立ったのが以下の「統計学を教える先生向けの補助教材」を統計局が作成し、まとめたサイトです。
引用元:統計学習の指導のために(先生向け)┃総務省統計局
政府統計を用いて基礎的なデータ分析が学べる学習教材が小学生、中学生、高校生とレベル別に用意されており、一部ではR、Pyhtonなど統計でよく使われるプログラミング言語(詳しくはコチラ)のサンプルコードも用意されているため、手を動かして分析する初歩的な手法の理解で重宝しました。
例えば「高校生のための統計学習教材」第2講「多変量データの扱い」では、総務省統計局が調査している全国消費実態調査のデータを用いて、都道府県別の消費支出のうち食料に関する支出を主成分分析する手法がサンプルコードつきで解説されています。
より高度な手法については専門書を購入する、Kaggleの「タイタニックコンペティション」に挑戦してみる、などの手法で学んでいくのが良いでしょう。
機械学習について学んでみようと思いググってみたものの、よくわからない専門用語ばかりで挫折してしまったという方は多くいるでしょう。
そんな方にとって『はじめての機械学習 中学数学でわかるAIのエッセンス』は、挫折せず「言葉」で機械学習の世界を見渡せるという点で非常に有用な書籍といえます。
『おわりに』で「もっと語りたい機械学習はあった(※)」とあるように、機械学習の世界は一冊に収まらない広大さを持っていますが、続編で取り上げられることも期待してまずは本書の内容を押さえたいですね!
※…田口善弘 (著) 『はじめての機械学習 中学数学でわかるAIのエッセンス (ブルーバックス) Kindle版』講談社、2021、p201
【参考資料】 ・田口善弘 (著) 『はじめての機械学習 中学数学でわかるAIのエッセンス (ブルーバックス) Kindle版』講談社、2021 ・August 2021 data-update for "Updated science-wide author databases of standardized citation indicators"┃Elsevier BV ・主成分分析┃Wikipedia ・最強AI「アルファゼロ」登場で将棋は終わるのか┃読売新聞オンライン ・統計学習の指導のために(先生向け)┃総務省統計局
(宮田文机)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!