1)o1モデルは、人間が解釈可能な思考の連鎖(COT:Chain of Thought)のフレームワークを使って、問題を順次探索する。そしてLLMのGPTモデルと全く異なり、強化学習によって訓練されている。
2)AIに長い時間推論させることによって、行き詰ったときにやり直すバックトラッキング能力や、間違いを認識して他の方法を試す自己修正能力が自然と獲得できた。
3)LLMの事前学習におけるスケーリング則に加えて、推論時スケーリング則を発見した。
次はその特性です。
■o1は、長時間かけて多くの選択肢を検討することで成果が上がる問題に対して、効果的だ。つまり正解を見つけるのが難しいが、正解かどうかの確認は容易な問題に強い。
■o1が数学、科学、プログラミングに強いのは、上記のような解の生成よりも検証の方が容易な問題が多いからである。したがって、小説の執筆のような正解がない分野は苦手である。
そうか。今まではAIを急かして解答させていたけど、今度はじっくり考えさせてみたら推論ができるようになった、ということか。
イメージとしては、そんな感じですね。ただ、思考の連鎖(COT)は、LLMに複雑な問題を解決させる際に、問題を複数のステップに分解して逐次的に推論させる手法です。現在COTを使う場合には、ユーザーがプロンプトで指示する際に事例や途中の推論ステップを入力する必要があります。しかしo1モデルが、ユーザーからのプロンプトの指示なしで、自らCOTを使えるのなら、どのように実現しているかは不明なのです。
そうなんですか。それと、強化学習とありますが、最近この名前をあまり聞きませんよ。
囲碁の世界チャンピオンに2016年に勝ったGoogleのAlphaGoが、この深層強化学習を利用していました。この頃、強化学習がAIを一気に進化させるアルゴリズムだということで、盛んに研究されていました。
でも、最近はほとんど聞いてないな。
強化学習は、AIが試行錯誤を繰り返して、最適な行動を学習するアルゴリズムです。 最初はランダムな行動を繰り返しながら試し、各行動に対する報酬を受け取ります。その報酬が最大になるように行動をすることで、最終的には報酬を最大化できる行動戦略を学習できます。しかし2018年にOpenAIが最初のLLMであるGPTを公開すると、世界中で大評判となって強化学習からLLMにAI研究のトレンドが移ったのです
そうでした。でも、強化学習よりLLMの方がAI研究者に人気なのはなぜですか?
強化学習は自己対戦ができるので、囲碁やゲームなどでは短期間で上達できます。しかし、あくまでルールが明確な「閉じた環境」に限られます。現実世界では、オープンな環境のためルールは不明確です。このため、現実世界における強化学習の研究は停滞していたようです、そこにLLMという新しい手法が登場し、しかもスケーリング則という比較的単純なルールで高性能化が図れると判明したので、世界中のAI研究者やAI企業がLLMに飛びついたのです。
なるほど。じゃ、o1モデルではなんで強化学習を取り入れたんですか?
LLMは原理的に、言葉の出現頻度を基準に一連の文章として生成しています。そして1兆パラメータを超えるような巨大LLMが、莫大なテキストデータを学習すると、なぜか教えていない数学問題でも解けるような、論理的思考能力を獲得しました。いわゆる「創発的能力」を発揮できるようになったのですが、推論に関してはCOTを使わない限り、高いレベルではありません。OpenAIは大規模な言語モデルであるGPTのアルゴリズムのままでは、AGIに到達できないと考え、推論ができるAIを密かに研究していたのでしょう。
そういえば、以前ボクもGPT-3に対して小学生レベルの算数の文章問題を、いくつか解かせたことがあったな。多少間違えたけど、なんで言語モデルが算数問題を解けるんだろうと、その時驚きましたよ。先生はあの時も創発的能力を発揮したからとか、意味不明の説明をしてましたね。
世界中の科学者たちが調査していましたが、未だに明確な説明を誰もしていないと思います。創発的能力などというものはない、という研究論文なら公開されていますが。とにかく、OpenAIの研究者たちは、よく分からない原理で推論させるのではなく、明確な原理で推論ができないかを探求していたはずです。その結果、AlphaGoのようなゲームAIで一般的に利用している、モンテカルロ法や深層強化学習を使って研究していたのだと思います。
そのモンテカルロ法とは?
簡単に言うと、コンピュータで囲碁や将棋などをする場合、乱数を用いて対戦シミュレーションをやり、勝率の高い手を選択する方法です。当然ですが、計算速度が速ければ深読みができるので、勝率が高くなります。
ということは、推論AIとは、棋士が将棋で次の一手を考えるとき、ここに駒をさすと相手がこうくるから、みたいにあらゆる局面を想定して深読みしているんだ。
そんなイメージですね。LLMだと基本的には知っていることは回答できますが、調べても分からないことは当然回答できません。精度の悪い学習データがあるとハルシネーションを起こして「嘘」の回答もします。o1モデルが解答するのに時間をかけるようになったのは、答えが明確で長時間考えれば分かるような問題を、モンテカルロ木探索(MCTS)のようなアルゴリズムでシミュレーションしているからです。
つまり、知ってる知らないのような知識を問う問題じゃなくて、数学の問題みたいなのが得意ということだ。
そうです。しかも前述した『特性2』にあるような、『行き詰ったときにやり直すバックトラッキング能力』や、『間違いを認識して他の方法を試す自己修正能力』があるので、推論能力が飛躍的向上したのです。
先生!ここには、この2つの能力を『自然に獲得できた』とありますよ。本当ですか?
ここが謎なのです。これはインタビューされた研究者の発言なのですが、o1モデルの論文が公開されていないので詳細不明です。囲碁や将棋の世界なら閉じているので、木探索しても候補が無限にあるわけではないです。しかし現実世界だと無限に探索する可能性が出てくるので、現在の探索ルートは途中で止めて、別のルートを探索しなければならないことがあります。ですから、あるところまでいったら途中で引き返す、のようなアルゴリズムを開発時に組み込んでいると思っていました。それが、自然にできるようになったのなら驚きです。
また創発的現象ですかね。それと3番目に『推論時スケーリング則』も発見したとありますよ。
そうなんです。つまり、あまりにも巨大化してしまったGPTシリーズは、電力消費量やハードウェア規模からくる制限に加えて、学習するためのデータまですべて食い尽くそうとしています。あと数年で限界にくると思っていたのですが、推論時間をさらに延ばすことでAI進化の限界を伸ばせることができると判明したことは、とても重要なことです。
そうか。どんな難問でも考える時間を与えさえすれば解けるはずだな。じゃ、戦争ばかりしているバカな人類が、どうすれば戦争をしなくなるのか考えさせてみたらどうかな。
それは素晴らしいアイデアですね。もしかしたら、1年以上そればかり考え続けて他の依頼を受け付けなくなるかもしれませんが。
10年後にやっと解答した結果が、そんな方法は見つけられませんでした、かもしれないけど。
・OpenAIの推論AI「o1モデル」は、今までの大規模言語モデルとは原理が異なり、思考の連鎖(COT)と深層強化学習を使用している。
・さらに長時間の推論により、行き詰ったときにやり直すバックトラッキング能力と、間違いを認識して他の方法を試す自己修正能力がある。
・推論時間を延ばすことでAIの能力が向上する、推論時スケーリング則を新たに発見した。
著者:谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。
(TEXT:谷田部卓 編集:藤冨啓之)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!
それではOpenAIが公開した推論ができる「o1モデル」について、公開されている情報で説明します。ただし、o1モデルの仕組みに関して、ほとんど非公開なので、どのように実現しているのかがよく分かりません。推測が混ざっているかもしれないので、ご注意ください。
このo1モデルの発表後、わずか数か月で中国の複数のAI企業が似たような性能のAIを発表していたから、秘密にするのはしかたがないですね。
そうですが、数か月で追従できる中国企業の技術力は凄いと思います。では、まず今までのGPTシリーズと原理が異なるo1モデルが、どのような原理なのかまとめてみましょう。