すべて生成AIを使って制作した画像に、画家制作ラベルとAI制作ラベルをつけて実験したが、画家制作ラベルをAI制作ラベルより高く評価し、しかも誰もAI生成物であることに気づかなかった。また、具象絵画を抽象絵画より高く評価した。
ですよね。だからフェイク画像が蔓延するんですよ。
フェイク画像とアート作品を同一視したらアーティストは怒るぞ。しかし、これが実態だ。ではなぜ生成AIは、ここまでレベルの高い画像というか「アート作品」を描けるようになったのか、について考えてみよう。
画像生成AIや動画生成AIが、どのようにして画像や動画を生成しているのかなら、概要だけですが以前私が「実用化が始まる動画生成AI(2) ~動画生成AIの仕組みとは~」で説明しています。
そうでしたね。もう一度、読み直してみましょう。
仕組みより重要な考え方が「世界モデル」だ。
それも「ついに汎用人工知能(AGI)が登場する 第1回 ~世界モデルとAGI~」で説明しています。
さすがだな。では、それらの概念を知っている前提で、話を進める。以前説明した世界モデルのポイントは以下だ。
世界モデルとは、外界からの観測を基に世界の構造を近似するよう学習して獲得したモデルのこと。人間は成長と共に生得できる。 AIが世界モデルを獲得すると、観測から要因を推論し、推論した要因から未知のことが予測できるようになる。
2024年にOpenAIが画期的な動画生成AIのSoraを出したことくらいは、知っているだろう。あの発表時にOpenAIは「Soraは膨大な数の動画を学習することで世界モデルを獲得できたかもしれない」みたいな発言をしていた。そのためAGI実現の可能性が見えてきたのかと、AI関係者たちが色めき立った。しかしその後、それほど簡単な話ではないことが分かってきた。我輩もその時点では世界モデルについて十分理解できておらず、AI研究者たちの文献やここ1年足らずで新しい見解や発表があったので、AIアートやAIの創造性について再考してみることにしたのだよ。
じゃあ、その結論だけ教えてください。
だがこの結論を理解するためには、前提として潜在空間や世界モデルについて理解している必要があるぞ。
潜在空間とか言われても、たぶん忘れていると思うので、以前私が説明した「AIがおしゃべりできる秘密|第2回|大規模言語モデルの仕組みとは」を読んで、AIがどのようにして言語を獲得したのかを思い出してください。サルくんは前に勉強したはずです。
え~と自然言語の話でしたよね。たしか言葉そのものには意味はなくて、人の持つ概念を聞き出すトリガーのようなものだ、つまり言葉はたんなる記号でしかない、とかいう哲学的な話なら覚えていますよ。
そう、そこは自然言語処理のイントロ部分ですが重要な考え方です。しかしこれでは人間の頭の中にある概念を、直接コンピュータが扱えませんね。そこで大量にある文章の中にある単語のつながり方に注目し、「意味」として扱ってみたら、これがなぜが上手くいきました。
※図版:筆者作成「ニューラルネットワークにおける単語の意味の扱い」
どうやって単語同士のつながりかたを、コンピュータが学習したかというと、まず図のように「単語n」の周囲にある単語を「単語nの意味」として学習します。そしてニューラルネットワークのパラメータの集合体、つまり単語nのベクトル空間を「意味」とすることで、単語の一連の集合である「文章の意味」もコンピュータで扱えるようになったのです。
そうだ。そして一連の単語の意味を把握できたコンピュータは、文章を生成できるようになりAIとなった、ということだな。あまりにも雑な説明だが。
自然言語処理入門書の一冊分の内容をわずか数十行で話してますが、やっと思い出しました。それで潜在空間とか世界モデルとは?
画像認識において、ディープラーニングが大量の教師画像の特徴量を抽出して学習することで、多様な画像を高精度で識別できるようになることは勉強したな。この場合多層のネットワークは画像をまるごと覚えるのではなく、画像の特徴量をベクトル変換し畳み込んで覚えることで、記憶量を大幅に圧縮して入力画像を識別、つまり画像認識することができるようになった。その学習済みネットワーク内部にあるパラメータの集合体・特徴量のベクトル空間を、潜在空間(Latent Space)というのだ。高次元のベクトル空間なので、単語や画像・動画などで似たようなもの同士なら、計算の難易度は高いがピックアップできる。
そうなんですね。じゃあ以前習った画像認識でのベクトル空間と同じじゃないですか。
まあ同じようなもんだな。個々の画像特徴量に単語の特徴量を割り当て、特徴量セットにしたのがマルチモーダルの潜在空間で、画像生成AIはこの潜在空間を使うことによって、言葉で指示すれば画像を生成できるようになった。
それも以前、動画生成AIで習ったことですね。では、世界モデルは?
※図版:筆者作成「世界モデルの概念」
やっと世界モデルの説明になる。図を見たまえ。我輩が描いた大雑把な概念図だが、まず人間はこの世に生まれてから成長するにつれて、体験や経験などで「現実の世界」を認識できるようになる。ここでは「現実空間」としてある。2~3歳になると、見聞きしたり体験したことと、教えてもらった「言葉」をリンクさせることで、言葉を覚えて操ることが次第にできるようになるだろう。成長するにつれ語彙が増えていくことで、人間の脳には「言語空間」が生じてくる。人間の言語空間は多様な体験をすることで、現実空間と「接地」ができる。このため図では、現実空間の中に入れてある。
接地とは変な言葉ですね。
正確には「記号接地」です。言葉は、ある概念に記号を付与したものなので、AIは言葉をたんなる記号として扱っています。AIが言葉を理解しているようにみえますが、その言葉に付帯されている情報を統計的に扱っているだけです。たぶん、地面に直に立てる人間のような体験ができないので、接地と言っているようです。
そうだな。マルチモーダルAIは膨大なデータを学習することで、人間の言語空間に相当する潜在空間を形成できるようになった。だが実際の体験ができないので現実空間との「接地」ができず、いまだに概念としての空間でしかない。だからAIには人間と同等の「常識」がないのだ。
体験ができないから常識がない、という理屈ですが、小学生は教室の座学だけで大半の社会常識を身に付けてますよ。
ここでの「常識」とは、学校で社会や道徳などの授業で習う社会常識というレベルではない。上にボールを投げるとすぐに下に落ちてくる、上り坂をしばらく登ると疲れてくる、夜になれば眠くなる、というレベルの話だ。知識ではなく、幼児でも体得していることだ。
なるほど。それで世界モデルとは?
当初の予定よりかなり長くなったので、この続きは次回にしましょう。
・生成AIが出力したイラストは、イラストレーター作品と比較しても大半の人には区別がつかず論争となっているが、AI生成物には著作権がない、というのが世界的認識だ。
・世界モデルとは、外界からの観測を基に世界の構造を近似するよう学習して獲得したモデルのこと。人間は成長と共に生得できるが、AIは経験できないので獲得していない。
・潜在空間とは、AIが文章や画像などの高次元学習データから特徴量を抽出し低次元のベクトルに変換して、距離の近いベクトル同士を近くに配置した空間である。
著者:谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。
(TEXT:谷田部卓 編集:藤冨啓之)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!
今回はAIアートなどの生成AIのテクノロジーについて深堀します。だいぶ前にもアートとビジネスについて講義していますが、知っていますか?
あの時はゴリくんの受講ですが、ボクも講義ビデオ見てます。ユニークな先生がアートワールドについて語っていましたよね
そうです。今回はAIとアートが専門のテックジー先生に教えてもらいます。
テクノおたくでもある自称アーティストのテックジーだ。以前、アート思考やアートワールドというテーマで話している。今回は昨年来急激に進化してきた生成AIが、なぜアートや動画まで高精度に生成できるようになってきたのか、その原理を深堀してみよう
お手柔らかに願います。
最近の画像生成AIが作り出すイラストや動画が、あまりにも上手いために様々な社会問題を起こしていることは知っているな、サルくん。
さっそくですね。世界でアーティストたちが、仕事を奪われると騒いでいることなら知ってますよ。
それもある。しかしここでは、そんな社会的問題ではなく、画像生成AIが作り出す画像やイラストなどは本物のアートなのか、そもそもAIに創造性はあるのか、という哲学的問題をテクノロジーの観点から扱ってみよう、という斬新なものだ。
へ~面白そうですね。
そうだろう。最近、AIを使った作品はアートではないからアート展からは排斥しろとか、AIには創造性がないとかの意見が多い。アメリカでは著作権局(U.S. Copyright Office)が「プロンプトのみによる生成物には著作権保護を認めない」と報告書を公開している。つまりAIアートには創造性がないと言っているようなものだ。
創造性があるかどうかではなく、AIには著作権がないと判断したのでしょうね。
ま~そんなことはさておき、問題はAI作品はアートなのか、というテーマだ。しかしこうなると、「アート」とはなんぞや、という話になり、以前話したアートワールドの話に戻ってしまうな。
権威者が、これはアートだと言えばアートになってしまうような、アートワールドの話ではないですよ。
ご参考までに経産省の資料によると、政府が認識しているアートは、洋画・日本画・陶芸・掛け軸・工芸・現代美術などですね。
いや、そうではない。我輩は、こんな即物的というか外形的な話をしているのではない。これも以前の講座で説明しているが、しょせん大半の人は「アート」を人が描いたのかAIが描いたのかを区別できない。”AIアート vs Humanアート 〜人はどちらを好むのか〜 “という論文で発表されている。ここでは結論の一部だけ再渇する。