AIがおしゃべりできる秘密｜第３回｜コンピュータが言葉を操る方法

世界的ブームとなっているChatGPTやGPT-4などの生成AIについて、その仕組みを会話形式と図解で分かりやすく説明する本連載「AIがおしゃべりできる秘密」の第3回目。連日のように登場する新しいAI技術の情報も交えて解説する。

データのじかんトップ > 新着記事一覧 > トレンド > AIがおしゃべりできる秘密｜第３回｜コンピュータが言葉を操る方法

ビジネス

更新：2025.04.19
公開：2023.07.26

登場人物
大規模言語モデルの登場
【筆者後記】AIとの会話②

登場人物

大学講師の知久卓泉（ちくたくみ）
眼鏡っ娘キャラでプライバシーは一切明かさない。

五里雷太（ごりらいた）
IT企業に勤めるビジネスパーソン。

大規模言語モデルの登場

　チクタク先生

これで最終回の講座となります。AI技術は2023年に入ってから現在も、加速度をつけて進化を続けている最中です

　ゴリくん

ChatGPTの影響は日本政府まで動かして、G7デジタル相会合の主要テーマにまでなっていますね

　チクタク先生

私もここまでAI技術が、動きの鈍い日本政府を動かすとは思ってもいませんでした。しかも頭の固い銀行や地方自治体まで、さっそくChatGPTを業務に利用しようとしているのには驚いています

時系列処理のモデル　※図版：著者作成

　チクタク先生

では前回の宿題だった大規模言語モデル（LLM：Large Language Model）の説明をしましょう。この図ですが、機械翻訳や自動要約、質疑応答などは、同一のモデルで表現できることを示しています

　ゴリくん

確かにこのように単純なモデルにすると、なんらかの処理をすれば実現できるように見えますね。でもこれは、それこそ“絵に描いた餅”で、本当にそんなことができるのですか？

　チクタク先生

前回説明した時系列ニューラルネットワークであるRNNの発展形Seq2Seq（Sequence to Sequence）を用いれば、実現可能になってきたのです。この図の4つの事例は、ある時系列データを、別の時系列データに変換する、と言い換えてもよいはずです。つまりニューラル言語モデルは、入力された時系列データから、出力単語の確率分布を求めるモデルです。したがって、ある時系列データが入力されると、コーパスの統計結果から、最も出現確率の高い単語列を計算して出力ができるようになるのです

　ゴリくん

そう言われると、できそうな気もしますね。しかしこの場合、学習したコーパスになかった文章は出力できないのでは？

　チクタク先生

基本的に単語とその前後の単語での確率分布なので、コーパスになかった単語列、つまり文章でも出力できるようになります。もちろんその精度は、学習するコーパスの質と量に依存しますが

AIモデルの比較　※図版：著者作成

　チクタク先生

図の上ですが、つい昨年前半まで主流だったAIは、このような目的特化型のAIでした。つまり、特定のジャンルのデータだけ学習しているので、顔認証専用とか要約専用のような単機能しかないAIのことです。
次に、先ほどのSeq2Seqの発展型であるTransformerというアルゴリズムを基本とした言語モデルが登場しました。そのモデルを単純に巨大化したのが、大規模言語モデル（LLM）です。このLLMが驚くべき性能を示して、あらゆるタスクをこなせる汎用言語モデルとなり、世界中の研究者がヒートアップしたのです

　ゴリくん

巨大化とは、なにを巨大化したのですか？

　チクタク先生

それまでAIを学習させるための教師データは、アノテーションという個々のデータに対してタグ付け作業が必要なために、学習コストが非常に高かったのです。それが自己教師あり学習のできる言語モデルや画像モデルが登場し、学習の精度が向上して学習コストが大きく下がったのです。そしてニューラル言語モデルの、パラメータ数を数千億まで増やし、ハードウェア規模を巨大化させることで、数十テラバイト級のテキストデータが学習できるようになったのです。大評判になったChatGPTは、この言語生成AIであるLLMを、会話用に特化させたものなのです

　ゴリくん

どうしてLLMを会話専用にしたのでしょうか？

　チクタク先生

AIを一般の人に広く利用してもらおうとしたら、AIに言葉で話しかけるチャットが最もよいと考えたのでしょう。しかもLLMなら人間並みの文章を生成できるようになったので、まず自然言語でのインターフェースにして、その能力を示したかったのでしょう

　ゴリくん

しかしチャットボットなら以前からありましたよ

　チクタク先生

従来のチャットボットとはレベルの異なる会話能力があるからなのですが、人と会話する理由もあるのです

　ゴリくん

え？なんですか？

　チクタク先生

それはユーザーと会話することで、ユーザーがどんな答えを求めているか、どんな価値観を持っているかを学習できるからです。検索だと結果を複数表示するだけですが、会話だとユーザーは期待した回答ではないと、否定をしたり別の言い回しで再質問するので回答精度の向上が期待できるのです

　ゴリくん

検索エンジンでも、ユーザーが複数の結果から選択したURLを学習していますよ

　チクタク先生

検索結果の表示とユーザー選択だけでは、肯定か否定かまでは明確にはならないはずです

ChatGPTの仕組み　※図版：著者作成

　チクタク先生

それではChatGPTの仕組みについて、その概要を説明します。ChatGPTを開発しているOpenAI社は、LLMであるGPTシリーズを次々と開発・スケールアップしてきました。GPT-1とGPT-2はオープンソースとして公開しましたが、GPT-3になるとあまりに言語生成能力が高く、このままでは悪用される恐れがあるとして学習済みモデルを非公開にしています。

　ゴリくん

まぁ今のChatGPT騒動をみていると、賢明な判断でしたね

　チクタク先生

図のGPT3.5はLLMであるGPT-3をさらに拡張したモデルで、これにファインチューニングしたものがInstructGPTになります。このファインチューニングは、GPTの欠点である差別発言や犯罪手法などの有害情報を出力しないように、人が作成した大量の教師データを学習させる行為のことです

　ゴリくん

初期のころのAIは、公開直後にヘイト発言を繰り返してすぐに非公開になることがよくあったので、このような仕組みにしたのですね。でもLLMにヘイト発言をしないような“モラル”を教えるには、やはり人間が教えるしかないのですね

　チクタク先生

人類に共通する“道徳の教科書”などというものは存在しないので、最初はゼロから作るしかなかったのでしょう。しかしChatGPTを公開してから様々なフィードバックがあったはずなので、LLMもどんどん賢くなるはずです

　ゴリくん

でも、世間ではAIは“平気で嘘を言う”という評判ですが

　チクタク先生

ChatGPTなどのLLMは、以前説明したようにTransformerを原理としています。つまりユーザーが入力した文字列（プロンプト）に最も近い確率分布の文字列を出力しているだけなので、質問に対しての正解かどうかは保証できません。原理的に不可能なのです。またWikipediaなどネット上から集めた膨大なテキストデータで訓練しているので、その中に誤りがないとは言えません。しかもChatGPTの学習データは2021年9月までなので最新情報は知らないのです

　ゴリくん

だからChatGPTに最新情報を聞いてもダメなのですね

　チクタク先生

最新情報を尋ねたいならマイクロソフトが提供しているBingのAIチャットサービスを利用した方がよいです。これは質問に対して最初にネット上にある情報を集約してからGPT-4ベースのLLMが回答を生成しているので最新情報を回答できますし、その情報元となるURLを表示できるので確認が可能です

画像生成AIの仕組み　※図版：著者作成

　チクタク先生

では次に、2022年夏ごろ大評判となった画像生成AIの説明をしましょう。教師画像から獲得したニューラルネットワークの高次元のベクトル値であるパラメータに、可能な限り近似させたベクトル値を生成させます。すると、そのネットワークから教師画像に非常に似た画像が生成できるようになります。GANが最も有名なこの画像生成アルゴリズムです

　ゴリくん

なにを言っているか、まったく理解できませんが

　チクタク先生

そうですか。前回の講義で、意味のベクトル化を説明しましたが、画像も高次元のベクトル化ができます。似た画像は似たようなベクトルになるので、ターゲットとなる画像と似たベクトルを探せば、似たような画像が探せることになりますね

　ゴリくん

そこは理解できます

　チクタク先生

図にもあるように、画像とその説明文のセットを高次元ベクトルにしておきます。ユーザーが指定した言葉（プロンプト）から、そのプロンプトに相当するベクトルデータを探して画像生成ネットワークに渡すことで、希望する画像が生成できるのです。申し訳ないですが、画像生成そのものの仕組み・拡散モデルの説明は長くなるので省きます

　ゴリくん

漠然とですが分かりました。ただその仕組みだと、学習した画像の中から探しているだけに聞こえますね

　チクタク先生

基本はそうなのですが、プロンプトの指示によって選択された複数の画像からその特徴を合成できるので、元画像が分からないほど複雑な画像が生成できるようになります。これが、2022年夏ごろに世界中で大ブームとなった画像生成AIの仕組みです

　ゴリくん

そうですか。画像生成AIが創造できるようになったのではないのですね

　チクタク先生

人間の画家も、最初は先生からの指導や手本となる絵を見て、技術を習得したはずです。まったくのゼロから絵画を描けるようになった画家はいないはずです

　ゴリくん

だからといって、イラストレーターの許可なく絵画やイラストをクローリングし利用してもよいとは言えないのではないでしょうか。日本のイラストレーターたちも集団で抗議を始めたようですね

　チクタク先生

2018年に改正された著作権法第30条の4では、AIなどの技術を活用するために、イラストなどの著作物の利用を認める規定が設けられています。ですから現時点で違法ではないですね。もっとも当時はここまでAIが発達して利用されるとは専門家でも予想していなかったので、再検討されるかもしれません

　ゴリくん

それにしても、ここまで一気にAIが進化すると我々の仕事は次第に減ってしまいますよ。中国では大勢のイラストレーターが失職したとか、アメリカの大手IT企業もAI活用を理由にして大量の社員を首にしたという報道を見ました

　チクタク先生

今回の講座は、自然言語処理の基本の説明からLLMの仕組みまでを駆け足で説明してきました。何度も言いますが、AIは現時点でも毎日のように進化を続けている最中です。AIの進化速度に対して、人間社会の対応はあまりに遅く変化には簡単には追従できません。今後、企業や政府がどのように対応し、仕事がどのように変化していくかは様々な予想がされていますので、この話に関しては別の機会に話をします。とりあえず今回の講義は、ここまでとさせていただきます

【筆者後記】AIとの会話②

【質問】

どうしてChatGPTを「会話専用」にしたので後記するのか？

【ChatGPT の回答】

AI言語モデルである私の目的は、私に与えられたプロンプトやクエリに基づいて、人間のようなテキストを生成するためにユーザーを支援することです。私は、エッセイの執筆、質問への回答、説明、会話など、さまざまな目的でテキストを処理・生成することができますが、OpenAIは、主に会話のやりとりを得意とするように私を設計しました。

会話は、ユーザーがよりインタラクティブでダイナミックな方法で私と関わることを可能にします。ユーザーから質問を受けたり、説明を求められたり、トピックをさらに深く掘り下げたいときに、特に有効なやり取りができます。会話に重点を置くことで、ユーザーにより魅力的でインタラクティブな体験を提供することができるのです。

ただし、会話に特化したデザインとはいえ、会話の文脈を必要としない特定の問い合わせやプロンプトに対しては、簡潔な答えや情報を提供できることも重要なポイントです。

図版・著者：谷田部卓

AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。

（TEXT：谷田部卓編集：藤冨啓之）

参照元

InstructGPTにおけるRLHF：https://openai.com/research/instruction-following
Model index for researchers：https://platform.openai.com/docs/model-index-for-researchers
DALL·E 2：https://openai.com/product/dall-e-2