世界モデルと拡散モデルとは第1回【世界モデルとは】

生成AIの急激な性能向上によって「『AIアート』はアートではない」などの論争が世界で巻き起こっている。このような議論を起こすほど、高品質な画像や動画をAIが短時間で生成できるのは「世界モデル」の概念と、「拡散モデル」というテクノロジーが登場したからだ。このシリーズでは、AIが画像や動画を生成できる原理とその具体的なテクノロジーを、図解で分かりやすく解説する。そしてAIには創造性があるのかまでを考察してみる。

初回はAIアートの状況と、生成AIの仕組みのうえで重要な概念「潜在空間」と「世界モデル」について解説する。

第2回｜アートとビジネス（後編）：アートワールドとテクノロジー
 実用化が始まる動画生成AI（２）～動画生成AIの仕組みとは～
ついに汎用人工知能（AGI）が登場する第1回～世界モデルとAGI～
AIがおしゃべりできる秘密｜第２回｜大規模言語モデルの仕組みとは

データのじかんトップ > 新着記事一覧 > トレンド > 世界モデルと拡散モデルとは第1回【世界モデルとは】

ビジネス

更新：2025.06.02
公開：2025.04.16

登場人物

大学講師の知久卓泉（ちくたくみ）
眼鏡っ娘キャラでプライバシーは一切明かさない。

サルくん
軽薄で口が達者だが怜悧な頭脳を持つ大学院生。

テックジー
主にCGを制作しているアーティスト、最近は生成AIも駆使する。

AIアートの状況

　チクタク先生

今回はAIアートなどの生成AIのテクノロジーについて深堀します。だいぶ前にもアートとビジネスについて講義していますが、知っていますか？

　サルくん

あの時はゴリくんの受講ですが、ボクも講義ビデオ見てます。ユニークな先生がアートワールドについて語っていましたよね

　チクタク先生

そうです。今回はAIとアートが専門のテックジー先生に教えてもらいます。

　テックジー

テクノおたくでもある自称アーティストのテックジーだ。以前、アート思考やアートワールドというテーマで話している。今回は昨年来急激に進化してきた生成AIが、なぜアートや動画まで高精度に生成できるようになってきたのか、その原理を深堀してみよう

　サルくん

お手柔らかに願います。

　テックジー

最近の画像生成AIが作り出すイラストや動画が、あまりにも上手いために様々な社会問題を起こしていることは知っているな、サルくん。

　サルくん

さっそくですね。世界でアーティストたちが、仕事を奪われると騒いでいることなら知ってますよ。

　テックジー

それもある。しかしここでは、そんな社会的問題ではなく、画像生成AIが作り出す画像やイラストなどは本物のアートなのか、そもそもAIに創造性はあるのか、という哲学的問題をテクノロジーの観点から扱ってみよう、という斬新なものだ。

　サルくん

へ～面白そうですね。

　テックジー

そうだろう。最近、AIを使った作品はアートではないからアート展からは排斥しろとか、AIには創造性がないとかの意見が多い。アメリカでは著作権局（U.S. Copyright Office）が「プロンプトのみによる生成物には著作権保護を認めない」と報告書を公開している。つまりAIアートには創造性がないと言っているようなものだ。

　チクタク先生

創造性があるかどうかではなく、AIには著作権がないと判断したのでしょうね。

　テックジー

ま～そんなことはさておき、問題はAI作品はアートなのか、というテーマだ。しかしこうなると、「アート」とはなんぞや、という話になり、以前話したアートワールドの話に戻ってしまうな。

　サルくん

権威者が、これはアートだと言えばアートになってしまうような、アートワールドの話ではないですよ。

　チクタク先生

ご参考までに経産省の資料によると、政府が認識しているアートは、洋画・日本画・陶芸・掛け軸・工芸・現代美術などですね。

　テックジー

いや、そうではない。我輩は、こんな即物的というか外形的な話をしているのではない。これも以前の講座で説明しているが、しょせん大半の人は「アート」を人が描いたのかAIが描いたのかを区別できない。”AIアート vs Humanアート〜人はどちらを好むのか〜 “という論文で発表されている。ここでは結論の一部だけ再渇する。

すべて生成AIを使って制作した画像に、画家制作ラベルとAI制作ラベルをつけて実験したが、画家制作ラベルをAI制作ラベルより高く評価し、しかも誰もAI生成物であることに気づかなかった。また、具象絵画を抽象絵画より高く評価した。

　サルくん

ですよね。だからフェイク画像が蔓延するんですよ。

　テックジー

フェイク画像とアート作品を同一視したらアーティストは怒るぞ。しかし、これが実態だ。ではなぜ生成AIは、ここまでレベルの高い画像というか「アート作品」を描けるようになったのか、について考えてみよう。

　チクタク先生

画像生成AIや動画生成AIが、どのようにして画像や動画を生成しているのかなら、概要だけですが以前私が「実用化が始まる動画生成AI（２）～動画生成AIの仕組みとは～」で説明しています。

　サルくん

そうでしたね。もう一度、読み直してみましょう。

世界モデルとは

　テックジー

仕組みより重要な考え方が「世界モデル」だ。

　チクタク先生

それも「ついに汎用人工知能（AGI）が登場する第1回～世界モデルとAGI～」で説明しています。

　テックジー

さすがだな。では、それらの概念を知っている前提で、話を進める。以前説明した世界モデルのポイントは以下だ。

世界モデルとは、外界からの観測を基に世界の構造を近似するよう学習して獲得したモデルのこと。人間は成長と共に生得できる。 AIが世界モデルを獲得すると、観測から要因を推論し、推論した要因から未知のことが予測できるようになる。

　テックジー

2024年にOpenAIが画期的な動画生成AIのSoraを出したことくらいは、知っているだろう。あの発表時にOpenAIは「Soraは膨大な数の動画を学習することで世界モデルを獲得できたかもしれない」みたいな発言をしていた。そのためAGI実現の可能性が見えてきたのかと、AI関係者たちが色めき立った。しかしその後、それほど簡単な話ではないことが分かってきた。我輩もその時点では世界モデルについて十分理解できておらず、AI研究者たちの文献やここ１年足らずで新しい見解や発表があったので、AIアートやAIの創造性について再考してみることにしたのだよ。

　サルくん

じゃあ、その結論だけ教えてください。

　テックジー

だがこの結論を理解するためには、前提として潜在空間や世界モデルについて理解している必要があるぞ。

　チクタク先生

潜在空間とか言われても、たぶん忘れていると思うので、以前私が説明した「AIがおしゃべりできる秘密｜第２回｜大規模言語モデルの仕組みとは」を読んで、AIがどのようにして言語を獲得したのかを思い出してください。サルくんは前に勉強したはずです。

　サルくん

え～と自然言語の話でしたよね。たしか言葉そのものには意味はなくて、人の持つ概念を聞き出すトリガーのようなものだ、つまり言葉はたんなる記号でしかない、とかいう哲学的な話なら覚えていますよ。

　チクタク先生

そう、そこは自然言語処理のイントロ部分ですが重要な考え方です。しかしこれでは人間の頭の中にある概念を、直接コンピュータが扱えませんね。そこで大量にある文章の中にある単語のつながり方に注目し、「意味」として扱ってみたら、これがなぜが上手くいきました。

※図版：筆者作成「ニューラルネットワークにおける単語の意味の扱い」

　チクタク先生

どうやって単語同士のつながりかたを、コンピュータが学習したかというと、まず図のように「単語n」の周囲にある単語を「単語nの意味」として学習します。そしてニューラルネットワークのパラメータの集合体、つまり単語nのベクトル空間を「意味」とすることで、単語の一連の集合である「文章の意味」もコンピュータで扱えるようになったのです。

　テックジー

そうだ。そして一連の単語の意味を把握できたコンピュータは、文章を生成できるようになりAIとなった、ということだな。あまりにも雑な説明だが。

　サルくん

自然言語処理入門書の一冊分の内容をわずか数十行で話してますが、やっと思い出しました。それで潜在空間とか世界モデルとは？

　テックジー

画像認識において、ディープラーニングが大量の教師画像の特徴量を抽出して学習することで、多様な画像を高精度で識別できるようになることは勉強したな。この場合多層のネットワークは画像をまるごと覚えるのではなく、画像の特徴量をベクトル変換し畳み込んで覚えることで、記憶量を大幅に圧縮して入力画像を識別、つまり画像認識することができるようになった。その学習済みネットワーク内部にあるパラメータの集合体・特徴量のベクトル空間を、潜在空間（Latent Space）というのだ。高次元のベクトル空間なので、単語や画像・動画などで似たようなもの同士なら、計算の難易度は高いがピックアップできる。

　サルくん

そうなんですね。じゃあ以前習った画像認識でのベクトル空間と同じじゃないですか。

　テックジー

まあ同じようなもんだな。個々の画像特徴量に単語の特徴量を割り当て、特徴量セットにしたのがマルチモーダルの潜在空間で、画像生成AIはこの潜在空間を使うことによって、言葉で指示すれば画像を生成できるようになった。

　サルくん

それも以前、動画生成AIで習ったことですね。では、世界モデルは？

※図版：筆者作成「世界モデルの概念」

　テックジー

やっと世界モデルの説明になる。図を見たまえ。我輩が描いた大雑把な概念図だが、まず人間はこの世に生まれてから成長するにつれて、体験や経験などで「現実の世界」を認識できるようになる。ここでは「現実空間」としてある。２～３歳になると、見聞きしたり体験したことと、教えてもらった「言葉」をリンクさせることで、言葉を覚えて操ることが次第にできるようになるだろう。成長するにつれ語彙が増えていくことで、人間の脳には「言語空間」が生じてくる。人間の言語空間は多様な体験をすることで、現実空間と「接地」ができる。このため図では、現実空間の中に入れてある。

　サルくん

接地とは変な言葉ですね。

　チクタク先生

正確には「記号接地」です。言葉は、ある概念に記号を付与したものなので、AIは言葉をたんなる記号として扱っています。AIが言葉を理解しているようにみえますが、その言葉に付帯されている情報を統計的に扱っているだけです。たぶん、地面に直に立てる人間のような体験ができないので、接地と言っているようです。

　テックジー

そうだな。マルチモーダルAIは膨大なデータを学習することで、人間の言語空間に相当する潜在空間を形成できるようになった。だが実際の体験ができないので現実空間との「接地」ができず、いまだに概念としての空間でしかない。だからAIには人間と同等の「常識」がないのだ。

　サルくん

体験ができないから常識がない、という理屈ですが、小学生は教室の座学だけで大半の社会常識を身に付けてますよ。

　テックジー

ここでの「常識」とは、学校で社会や道徳などの授業で習う社会常識というレベルではない。上にボールを投げるとすぐに下に落ちてくる、上り坂をしばらく登ると疲れてくる、夜になれば眠くなる、というレベルの話だ。知識ではなく、幼児でも体得していることだ。

　サルくん

なるほど。それで世界モデルとは？

　チクタク先生

当初の予定よりかなり長くなったので、この続きは次回にしましょう。

この記事のポイント

・生成AIが出力したイラストは、イラストレーター作品と比較しても大半の人には区別がつかず論争となっているが、AI生成物には著作権がない、というのが世界的認識だ。
・世界モデルとは、外界からの観測を基に世界の構造を近似するよう学習して獲得したモデルのこと。人間は成長と共に生得できるが、AIは経験できないので獲得していない。
・潜在空間とは、AIが文章や画像などの高次元学習データから特徴量を抽出し低次元のベクトルに変換して、距離の近いベクトル同士を近くに配置した空間である。

【第２回に続く】

著者：谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。

（TEXT：谷田部卓編集：藤冨啓之）

参照元

松尾研がAIの世界モデル研究に注力する理由｜Web｜Ledge.ai

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。

世界モデルと拡散モデルとは第1回【世界モデルとは】

登場人物

AIアートの状況

世界モデルとは

この記事のポイント

参照元

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

おすすめ記事Recommended articles

掲載特集

世界モデルと拡散モデルとは 第1回【世界モデルとは】

登場人物

AIアートの状況

世界モデルとは

この記事のポイント

参照元

<img src="https://data.wingarc.com/wp-content/themes/datatimes/images/icon-mail-logo.png" alt="" width="274" height="104">

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

おすすめ記事Recommended articles

掲載特集

世界モデルと拡散モデルとは第1回【世界モデルとは】