世界モデルとは、外界からの観測を基に世界の構造を近似するよう学習して獲得したモデルのこと。AIが世界モデルを獲得すると、観測から要因を推論し、推論した要因から未知のことが予測できるようになる。
※図版:筆者作成「世界モデルの概念」
つまりこの図は、AIの潜在空間が現実の空間と接地すれば、世界モデルを獲得したことになる、と言っている。
つまり、どうすればAIが接地ができるのか、という問題になりますね。ということは人間みたく「体験」するしかなく、AIロボットが実際に体験して現実空間を把握するんですか?
まぁその方法も有力な方法だな。しかし最近急浮上してきたのが、ロボタクシーなどの自動運転車が集めている膨大な運転データだ。運転するという操作とその結果としての走行記録の両セットがあれば、「接地」ができるというわけだ。
ちょっと待ってください。今回の「お題」は、「AIに創造性があるか」ですが、話が横道に逸れていませんか?
いやいや、「お題」を忘れているわけではない。我輩が考えていることを説明するためには、潜在空間や世界モデルが必要なので話してきたのだ。生成AIの頭脳の中身である潜在空間は、先ほどから説明している図のようなものだ。創造性という言葉はこれまた曖昧なのだが、今はとりあえず具体的にイメージしやすい画像生成に限定して説明してみよう。画像生成AIの技術的仕組みはサルくん習ったな。
チクタク先生が以前話してましたが、元画像を完全にノイズ化して、そこから元画像に戻せるようになるまで、ひたすらネットワークにスパルタ教育するとかいう話でしたね。そういえばあの時も潜在空間という言葉も使っていたな。
動画生成AIの解説時に話しましたが、拡散モデルという生成AIでも最先端の技術の話です。ただ、その分野はあまりに技術革新が激しく、毎週のように技術が更新されるので、私は概念でしか理解できていません。
それもそうだな。拡散モデルは「超高次元空間におけるデノイジングスコアマッチング」という手法だが、非常に高度な数学が多用されている。高等数学が得意でなければ理解できないレベルだな。我輩もこの理論を咀嚼できているわけではない。ここでは理解している範囲でしか説明するしかないので、解釈の間違いが多少あるかもしれない。そこは勘弁してほしい。
※図版:筆者作成「生成AIの仕組み」
我輩が苦労して作成したこの図は、拡散モデルを使った画像生成AIの、画像生成過程の模式図だ。この潜在空間とは、データ空間から抽出された「概念」の集合体のようなものだ。例えば「ネコ」ならサルくんでも知っているから、絵に描けるだろう。
ネコならもちろん知っていますが、この図にあるような単純なポンチ絵でも、お手本無しでは描けないかもしれませんね。そうか、生成AIは「ネコの概念」だけから、指定されたネコの絵を描かなきゃならないのか。
そうだ。生成AIはネコの画像ならデータ空間に星の数ほどあるから学習している。ただ潜在空間には、ネコの実画像ではなく次元圧縮して特徴抽出したデータで持っている。この現実空間から潜在空間を獲得するまでは前回説明したな。問題はプロンプトで条件付けされた生成対象を、潜在空間からどうやって生成するかだ。
そうです。画像にガウシアンノイズをかけ、また取り去ることで画像を学習できるなんて、専門家でないと直観的には理解できません。
潜在空間は学習用の莫大なデータ空間から、桁違いに次元圧縮して特徴量に変換したものだが、それでも比較的高次元の空間に広くデータが分布している。データ生成とは高次元空間中にある生成対象を探し出す問題ともいえるのだ。この広大な高次元空間には、ネコでもラクダでも家でも、その特徴となる言葉が割り当てられている画像が膨大にある。プロンプトに「左」とか「茶色」とあれば、その言葉に応じたイメージも多数あるだろう。単純に「イヌ」と指定しても、柴犬やチワワでもイヌだ。だから潜在空間から探し出すといっても、正解の候補が多数存在することは理解できるだろう。
まぁ条件を、動物⇒イヌ⇒柴犬⇒黒柴と絞り込まなければ、正解候補が多数でてきますね。
そうだ。だからデータ学習時に、そのデータに対して生成時に必要となる事前分布という確率分布を、あらかじめ割り当てている。そして、例えば画像というデータをどうやって生成するかというと、そのデータ(観測変数)は潜在変数という謎の潜んだ変数にもとづいて発生した、と考えてみる。これを潜在変数モデルというのだが、こうするとデータを生成したであろう潜在変数を推定すればよいことになる。
次第に話が、よく分からない抽象的なってきましたよ。
しばらく我慢して聞きなさい。この潜在変数を推定する手法だが、近年急激に進展し現時点で最新の手法が拡散モデルなのだ。これ以外にも多数のモデルが提案されているが、この手法が(今のところだが)性能的に最も成功している。
肝心な部分を飛ばしましたね。
そこは、よく使われるたとえ話で説明しよう。水面上にインクで文字を書いたとする。すると時間が経つにつれてインクの文字が崩れていき、長時間になると水中にインクは一様に混ざってしまうだろう。もし、このインクの拡散を逆向きに再生できれば、もとのインク文字が再生できることになる。1960年代にあった特撮TV番組「ウルトラQ」のオープニングタイトルみたいなものだな。
そんな生まれる前のTV番組なんか、誰も知りませんよ。
そうか、分かりやすい例えだと思ったのだが。
例えるなら、以前講座で解説したレザバーコンピュータの原理が似ているので、その概念図の方がよいですね。ご参考までに再渇します。
※図版:筆者作成「レザバーコンピューティングの原理」
概念のイメージとしては同じようなものだな。レザバーコンピュータのモデルは、時系列データの機械学習において実用性が高いな。しかし認識だけでは生成ができないと思うが。我輩はあまり知らないので言及はしない。
手抜きしないで、拡散モデルがどうやってデータ生成するのかを説明してください。この波紋のモデルで生成ができないなら、説明になってませんよ。
※図版:筆者作成「連想記憶と生成AI」
しかたがない。また説明が長くなってしまうが、話を根源的なところにもどすぞ。この図の左を見たまえ。人間は記憶ができるし、それを思い出すこともできるので思考ができる。
当たり前じゃないですか。思い出せなかったら記憶する意味がないですよ。
まるで勉強したことを、全部思い出せるような言い方だな。ところで、この人間の思い出す方法だが、連想記憶で思い出していることは、直観的にわかるだろう。
あ~本能寺の変を「いちごパンツの明智光秀」で1582年を思い出すとかですね。
くだらない語呂合わせだが、それは人間が連想記憶で思い出しやすいことを上手く利用したものだな。単語や数字は離散的なのでなかなか思い出せないが、そこに手掛かりとなるなんらかの情報があると、思い出しやすくなる。昔の記憶もそうだ。例えば、小学校時代の記憶はあいまいだが、同窓会に出席して旧友に会うと意外に思い出すもんだろう。
でも連想だと、トランプはカードゲームだけど今なら大統領で、マスクは風邪じゃなくて副大統領になってしまいますよ。
イーロン・マスクは副大統領なんかではありません。極右の権力乱用者です。
辛辣な意見だが、そんなもんだな。人間の連想記憶は便利なもので、コンピュータのように正確ではないが、似たようなものや関連するものを芋づる式にたくさん思い出せる。アイデアや思いつきなどの発想は、連想記憶じゃないと出せないだろう。コンピュータはデータベース(DB)に情報を記録しているが、コンピュータのアプリケーションであるAIも、原則としてDBにデータを保存している。AIの研究は、この人間独特の連想記憶をなんとか真似ようとしてきたのだが、技術的に非常に難しく、なかなか実現できなかった。
じゃあ、図の右側は、生成AIが連想記憶を実現できたといっているのですね。
そうだ。ごく最近になって、やっと実用的な連想記憶の技術が発明されたのだよ。その成果が、画像生成AIや動画生成AIなどのデータ生成AIだ。生成AIがデータ生成できる秘密は連想記憶にあるのだ。この連想記憶を実装するためには潜在空間が必須なので、今まで長々とその説明をしてきたのだ。この解説方法は、我輩が苦心惨憺して考えたものだぞ。
なるほど。潜在空間が人間の連想記憶をマネしているという説明で、やっと腑に落ちました。
せっかくテックジー先生に、データ生成の秘密まで教えてもらったのですが、また時間切れなので、残念ながらその続きは次回にしましょう。
・AIが人間と同等の思考をするための世界モデルを獲得するには、潜在空間を現実空間と接地させる必要があるが、現状では実現できていない。
・画像生成のようなデータ生成とは、潜在空間中にある生成対象を探し出す問題であり、拡散モデルはその最新の手法である。
・生成AIがデータ生成できる秘密は、人間の記憶方法である連想記憶を実現したことにある。
【第3回に続く】
著者:谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。
(TEXT:谷田部卓 編集:藤冨啓之)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!
前回はテックジー先生に、潜在空間について説明してもらいました。なかなか話が進みませんが、今回は「世界モデル」について引き続き解説してもらいます。
AIの創造性についてなどという難解なテーマを、我輩がよく話し始めたもんだ。話しているうちに考えがまとまるだろうと、いつものように思っていたのだが、簡単にはいかないな。
それは、あまりに楽観的ですね。
まぁ始めてしまったからには話を進めてみよう。前回話した世界モデルの定義と図を再渇するぞ。