世界モデルと拡散モデルとは第2回【生成AIの秘密】

生成AIの急激な性能向上によって「『AIアート』はアートではない」などの論争が世界で巻き起こっている。このような議論を起こすほど、高品質な画像や動画をAIが短時間で生成できるのは「世界モデル」の概念と、「拡散モデル」というテクノロジーが登場したからだ。このシリーズでは、AIが画像や動画を生成できる原理とその具体的なテクノロジーを、図解で分かりやすく解説する。そしてAIには創造性があるのかまでを考察してみる。

第2回では「拡散モデル」について説明し、生成AIが画像などのデータを生成できる秘密を話す。

世界モデルと拡散モデルとは第1回【世界モデルとは】
階層化する知能第4回【レザバーコンピューティングとは】

データのじかんトップ > 新着記事一覧 > トレンド > 世界モデルと拡散モデルとは第2回【生成AIの秘密】

ビジネス

更新：2025.06.02
公開：2025.04.22

登場人物

大学講師の知久卓泉（ちくたくみ）
眼鏡っ娘キャラでプライバシーは一切明かさない。

サルくん
軽薄で口が達者だが怜悧な頭脳を持つ大学院生。

テックジー
主にCGを制作しているアーティスト、最近は生成AIも駆使する。

世界モデルと潜在空間の関係

　チクタク先生

前回はテックジー先生に、潜在空間について説明してもらいました。なかなか話が進みませんが、今回は「世界モデル」について引き続き解説してもらいます。

　テックジー

AIの創造性についてなどという難解なテーマを、我輩がよく話し始めたもんだ。話しているうちに考えがまとまるだろうと、いつものように思っていたのだが、簡単にはいかないな。

　サルくん

それは、あまりに楽観的ですね。

　テックジー

まぁ始めてしまったからには話を進めてみよう。前回話した世界モデルの定義と図を再渇するぞ。

世界モデルとは、外界からの観測を基に世界の構造を近似するよう学習して獲得したモデルのこと。AIが世界モデルを獲得すると、観測から要因を推論し、推論した要因から未知のことが予測できるようになる。

※図版：筆者作成「世界モデルの概念」

　テックジー

つまりこの図は、AIの潜在空間が現実の空間と接地すれば、世界モデルを獲得したことになる、と言っている。

　サルくん

つまり、どうすればAIが接地ができるのか、という問題になりますね。ということは人間みたく「体験」するしかなく、AIロボットが実際に体験して現実空間を把握するんですか？

　テックジー

まぁその方法も有力な方法だな。しかし最近急浮上してきたのが、ロボタクシーなどの自動運転車が集めている膨大な運転データだ。運転するという操作とその結果としての走行記録の両セットがあれば、「接地」ができるというわけだ。

　チクタク先生

ちょっと待ってください。今回の「お題」は、「AIに創造性があるか」ですが、話が横道に逸れていませんか？

　テックジー

いやいや、「お題」を忘れているわけではない。我輩が考えていることを説明するためには、潜在空間や世界モデルが必要なので話してきたのだ。生成AIの頭脳の中身である潜在空間は、先ほどから説明している図のようなものだ。創造性という言葉はこれまた曖昧なのだが、今はとりあえず具体的にイメージしやすい画像生成に限定して説明してみよう。画像生成AIの技術的仕組みはサルくん習ったな。

　サルくん

チクタク先生が以前話してましたが、元画像を完全にノイズ化して、そこから元画像に戻せるようになるまで、ひたすらネットワークにスパルタ教育するとかいう話でしたね。そういえばあの時も潜在空間という言葉も使っていたな。

　チクタク先生

動画生成AIの解説時に話しましたが、拡散モデルという生成AIでも最先端の技術の話です。ただ、その分野はあまりに技術革新が激しく、毎週のように技術が更新されるので、私は概念でしか理解できていません。

　テックジー

それもそうだな。拡散モデルは「超高次元空間におけるデノイジングスコアマッチング」という手法だが、非常に高度な数学が多用されている。高等数学が得意でなければ理解できないレベルだな。我輩もこの理論を咀嚼できているわけではない。ここでは理解している範囲でしか説明するしかないので、解釈の間違いが多少あるかもしれない。そこは勘弁してほしい。

画像生成とは

※図版：筆者作成「生成AIの仕組み」

　テックジー

我輩が苦労して作成したこの図は、拡散モデルを使った画像生成AIの、画像生成過程の模式図だ。この潜在空間とは、データ空間から抽出された「概念」の集合体のようなものだ。例えば「ネコ」ならサルくんでも知っているから、絵に描けるだろう。

　サルくん

ネコならもちろん知っていますが、この図にあるような単純なポンチ絵でも、お手本無しでは描けないかもしれませんね。そうか、生成AIは「ネコの概念」だけから、指定されたネコの絵を描かなきゃならないのか。

　テックジー

そうだ。生成AIはネコの画像ならデータ空間に星の数ほどあるから学習している。ただ潜在空間には、ネコの実画像ではなく次元圧縮して特徴抽出したデータで持っている。この現実空間から潜在空間を獲得するまでは前回説明したな。問題はプロンプトで条件付けされた生成対象を、潜在空間からどうやって生成するかだ。

　チクタク先生

そうです。画像にガウシアンノイズをかけ、また取り去ることで画像を学習できるなんて、専門家でないと直観的には理解できません。

　テックジー

潜在空間は学習用の莫大なデータ空間から、桁違いに次元圧縮して特徴量に変換したものだが、それでも比較的高次元の空間に広くデータが分布している。データ生成とは高次元空間中にある生成対象を探し出す問題ともいえるのだ。この広大な高次元空間には、ネコでもラクダでも家でも、その特徴となる言葉が割り当てられている画像が膨大にある。プロンプトに「左」とか「茶色」とあれば、その言葉に応じたイメージも多数あるだろう。単純に「イヌ」と指定しても、柴犬やチワワでもイヌだ。だから潜在空間から探し出すといっても、正解の候補が多数存在することは理解できるだろう。

　サルくん

まぁ条件を、動物⇒イヌ⇒柴犬⇒黒柴と絞り込まなければ、正解候補が多数でてきますね。

　テックジー

そうだ。だからデータ学習時に、そのデータに対して生成時に必要となる事前分布という確率分布を、あらかじめ割り当てている。そして、例えば画像というデータをどうやって生成するかというと、そのデータ（観測変数）は潜在変数という謎の潜んだ変数にもとづいて発生した、と考えてみる。これを潜在変数モデルというのだが、こうするとデータを生成したであろう潜在変数を推定すればよいことになる。

　サルくん

次第に話が、よく分からない抽象的なってきましたよ。

　テックジー

しばらく我慢して聞きなさい。この潜在変数を推定する手法だが、近年急激に進展し現時点で最新の手法が拡散モデルなのだ。これ以外にも多数のモデルが提案されているが、この手法が（今のところだが）性能的に最も成功している。

　チクタク先生

肝心な部分を飛ばしましたね。

　テックジー

そこは、よく使われるたとえ話で説明しよう。水面上にインクで文字を書いたとする。すると時間が経つにつれてインクの文字が崩れていき、長時間になると水中にインクは一様に混ざってしまうだろう。もし、このインクの拡散を逆向きに再生できれば、もとのインク文字が再生できることになる。1960年代にあった特撮TV番組「ウルトラQ」のオープニングタイトルみたいなものだな。

　サルくん

そんな生まれる前のTV番組なんか、誰も知りませんよ。

　テックジー

そうか、分かりやすい例えだと思ったのだが。

　チクタク先生

例えるなら、以前講座で解説したレザバーコンピュータの原理が似ているので、その概念図の方がよいですね。ご参考までに再渇します。

※図版：筆者作成「レザバーコンピューティングの原理」

　テックジー

概念のイメージとしては同じようなものだな。レザバーコンピュータのモデルは、時系列データの機械学習において実用性が高いな。しかし認識だけでは生成ができないと思うが。我輩はあまり知らないので言及はしない。

　サルくん

手抜きしないで、拡散モデルがどうやってデータ生成するのかを説明してください。この波紋のモデルで生成ができないなら、説明になってませんよ。

生成AIと連想記憶

※図版：筆者作成「連想記憶と生成AI」

　テックジー

しかたがない。また説明が長くなってしまうが、話を根源的なところにもどすぞ。この図の左を見たまえ。人間は記憶ができるし、それを思い出すこともできるので思考ができる。

　サルくん

当たり前じゃないですか。思い出せなかったら記憶する意味がないですよ。

　テックジー

まるで勉強したことを、全部思い出せるような言い方だな。ところで、この人間の思い出す方法だが、連想記憶で思い出していることは、直観的にわかるだろう。

　サルくん

あ～本能寺の変を「いちごパンツの明智光秀」で1582年を思い出すとかですね。

　テックジー

くだらない語呂合わせだが、それは人間が連想記憶で思い出しやすいことを上手く利用したものだな。単語や数字は離散的なのでなかなか思い出せないが、そこに手掛かりとなるなんらかの情報があると、思い出しやすくなる。昔の記憶もそうだ。例えば、小学校時代の記憶はあいまいだが、同窓会に出席して旧友に会うと意外に思い出すもんだろう。

　サルくん

でも連想だと、トランプはカードゲームだけど今なら大統領で、マスクは風邪じゃなくて副大統領になってしまいますよ。

　チクタク先生

イーロン・マスクは副大統領なんかではありません。極右の権力乱用者です。

　テックジー

辛辣な意見だが、そんなもんだな。人間の連想記憶は便利なもので、コンピュータのように正確ではないが、似たようなものや関連するものを芋づる式にたくさん思い出せる。アイデアや思いつきなどの発想は、連想記憶じゃないと出せないだろう。コンピュータはデータベース（DB）に情報を記録しているが、コンピュータのアプリケーションであるAIも、原則としてDBにデータを保存している。AIの研究は、この人間独特の連想記憶をなんとか真似ようとしてきたのだが、技術的に非常に難しく、なかなか実現できなかった。

　サルくん

じゃあ、図の右側は、生成AIが連想記憶を実現できたといっているのですね。

　テックジー

そうだ。ごく最近になって、やっと実用的な連想記憶の技術が発明されたのだよ。その成果が、画像生成AIや動画生成AIなどのデータ生成AIだ。生成AIがデータ生成できる秘密は連想記憶にあるのだ。この連想記憶を実装するためには潜在空間が必須なので、今まで長々とその説明をしてきたのだ。この解説方法は、我輩が苦心惨憺して考えたものだぞ。

　サルくん

なるほど。潜在空間が人間の連想記憶をマネしているという説明で、やっと腑に落ちました。

　チクタク先生

せっかくテックジー先生に、データ生成の秘密まで教えてもらったのですが、また時間切れなので、残念ながらその続きは次回にしましょう。

この記事のポイント

・AIが人間と同等の思考をするための世界モデルを獲得するには、潜在空間を現実空間と接地させる必要があるが、現状では実現できていない。
・画像生成のようなデータ生成とは、潜在空間中にある生成対象を探し出す問題であり、拡散モデルはその最新の手法である。
・生成AIがデータ生成できる秘密は、人間の記憶方法である連想記憶を実現したことにある。

【第３回に続く】

著者：谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。

（TEXT：谷田部卓編集：藤冨啓之）

参照元

松尾研がAIの世界モデル研究に注力する理由｜Web｜Ledge.ai

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。

世界モデルと拡散モデルとは第2回【生成AIの秘密】

登場人物

世界モデルと潜在空間の関係

画像生成とは

生成AIと連想記憶

この記事のポイント

参照元

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

おすすめ記事Recommended articles

掲載特集

世界モデルと拡散モデルとは 第2回【生成AIの秘密】

登場人物

世界モデルと潜在空間の関係

画像生成とは

生成AIと連想記憶

この記事のポイント

参照元

<img src="https://data.wingarc.com/wp-content/themes/datatimes/images/icon-mail-logo.png" alt="" width="274" height="104">

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

おすすめ記事Recommended articles

掲載特集

世界モデルと拡散モデルとは第2回【生成AIの秘密】