階層化する知能第5回【推論AI「o1」の仕組み】

今までこのAI講座では、CatGPTなどのLLM（大規模言語モデル）の仕組み、このLLMが急激に大規模化する理由、SLM（小規模言語モデル）登場の意義、数年後にAGI（汎用人工知能）を完成させるというOpenAIの戦略、ASI（超知能）の創り方、を話してきた。ではAIは、今後どのような形態に進化し多様化していくのかを考察してみた。

前回の講義で、高度な推論ができるOpenAI「o1モデル」の性能を、簡単に説明した。2024年12月21日には、さらに進化した「o3」の発表があり、AI業界はほとんどお祭り騒ぎの状況にある。今回はまず、従来できなかった高度な推論能力を、どのようにして「o1モデル」が実現できたかのかを解説する。

・【階層化する知能】第1回
・【階層化する知能】第2回
・【階層化する知能】第3回
・【階層化する知能】第4回
・【階層化する知能】第5回

データのじかんトップ > 新着記事一覧 > トレンド > 階層化する知能第5回【推論AI「o1」の仕組み】

ビジネス

更新：2025.05.14
公開：2025.02.18

登場人物
AIが推論できるようになった秘密
言語モデルが算数問題を解ける理由と推論AI

登場人物

大学講師の知久卓泉（ちくたくみ）
眼鏡っ娘キャラでプライバシーは一切明かさない。

サルくん
軽薄で口が達者だが怜悧な頭脳を持つ大学院生。

AIが推論できるようになった秘密

　チクタク先生

それではOpenAIが公開した推論ができる「o1モデル」について、公開されている情報で説明します。ただし、o1モデルの仕組みに関して、ほとんど非公開なので、どのように実現しているのかがよく分かりません。推測が混ざっているかもしれないので、ご注意ください。

　サルくん

このo1モデルの発表後、わずか数か月で中国の複数のAI企業が似たような性能のAIを発表していたから、秘密にするのはしかたがないですね。

　チクタク先生

そうですが、数か月で追従できる中国企業の技術力は凄いと思います。では、まず今までのGPTシリーズと原理が異なるo1モデルが、どのような原理なのかまとめてみましょう。

１）o1モデルは、人間が解釈可能な思考の連鎖（COT:Chain of Thought）のフレームワークを使って、問題を順次探索する。そしてLLMのGPTモデルと全く異なり、強化学習によって訓練されている。
２）AIに長い時間推論させることによって、行き詰ったときにやり直すバックトラッキング能力や、間違いを認識して他の方法を試す自己修正能力が自然と獲得できた。
３）LLMの事前学習におけるスケーリング則に加えて、推論時スケーリング則を発見した。

　チクタク先生

次はその特性です。

■o1は、長時間かけて多くの選択肢を検討することで成果が上がる問題に対して、効果的だ。つまり正解を見つけるのが難しいが、正解かどうかの確認は容易な問題に強い。
■o1が数学、科学、プログラミングに強いのは、上記のような解の生成よりも検証の方が容易な問題が多いからである。したがって、小説の執筆のような正解がない分野は苦手である。

　サルくん

そうか。今まではAIを急かして解答させていたけど、今度はじっくり考えさせてみたら推論ができるようになった、ということか。

　チクタク先生

イメージとしては、そんな感じですね。ただ、思考の連鎖（COT）は、LLMに複雑な問題を解決させる際に、問題を複数のステップに分解して逐次的に推論させる手法です。現在COTを使う場合には、ユーザーがプロンプトで指示する際に事例や途中の推論ステップを入力する必要があります。しかしo1モデルが、ユーザーからのプロンプトの指示なしで、自らCOTを使えるのなら、どのように実現しているかは不明なのです。

　サルくん

そうなんですか。それと、強化学習とありますが、最近この名前をあまり聞きませんよ。

　チクタク先生

囲碁の世界チャンピオンに2016年に勝ったGoogleのAlphaGoが、この深層強化学習を利用していました。この頃、強化学習がAIを一気に進化させるアルゴリズムだということで、盛んに研究されていました。

　サルくん

でも、最近はほとんど聞いてないな。

　チクタク先生

強化学習は、AIが試行錯誤を繰り返して、最適な行動を学習するアルゴリズムです。最初はランダムな行動を繰り返しながら試し、各行動に対する報酬を受け取ります。その報酬が最大になるように行動をすることで、最終的には報酬を最大化できる行動戦略を学習できます。しかし2018年にOpenAIが最初のLLMであるGPTを公開すると、世界中で大評判となって強化学習からLLMにAI研究のトレンドが移ったのです

　サルくん

そうでした。でも、強化学習よりLLMの方がAI研究者に人気なのはなぜですか？

　チクタク先生

強化学習は自己対戦ができるので、囲碁やゲームなどでは短期間で上達できます。しかし、あくまでルールが明確な「閉じた環境」に限られます。現実世界では、オープンな環境のためルールは不明確です。このため、現実世界における強化学習の研究は停滞していたようです、そこにLLMという新しい手法が登場し、しかもスケーリング則という比較的単純なルールで高性能化が図れると判明したので、世界中のAI研究者やAI企業がLLMに飛びついたのです。

　サルくん

なるほど。じゃ、o1モデルではなんで強化学習を取り入れたんですか？

　チクタク先生

LLMは原理的に、言葉の出現頻度を基準に一連の文章として生成しています。そして1兆パラメータを超えるような巨大LLMが、莫大なテキストデータを学習すると、なぜか教えていない数学問題でも解けるような、論理的思考能力を獲得しました。いわゆる「創発的能力」を発揮できるようになったのですが、推論に関してはCOTを使わない限り、高いレベルではありません。OpenAIは大規模な言語モデルであるGPTのアルゴリズムのままでは、AGIに到達できないと考え、推論ができるAIを密かに研究していたのでしょう。

言語モデルが算数問題を解ける理由と推論AI

　サルくん

そういえば、以前ボクもGPT-3に対して小学生レベルの算数の文章問題を、いくつか解かせたことがあったな。多少間違えたけど、なんで言語モデルが算数問題を解けるんだろうと、その時驚きましたよ。先生はあの時も創発的能力を発揮したからとか、意味不明の説明をしてましたね。

　チクタク先生

世界中の科学者たちが調査していましたが、未だに明確な説明を誰もしていないと思います。創発的能力などというものはない、という研究論文なら公開されていますが。とにかく、OpenAIの研究者たちは、よく分からない原理で推論させるのではなく、明確な原理で推論ができないかを探求していたはずです。その結果、AlphaGoのようなゲームAIで一般的に利用している、モンテカルロ法や深層強化学習を使って研究していたのだと思います。

　サルくん

そのモンテカルロ法とは？

　チクタク先生

簡単に言うと、コンピュータで囲碁や将棋などをする場合、乱数を用いて対戦シミュレーションをやり、勝率の高い手を選択する方法です。当然ですが、計算速度が速ければ深読みができるので、勝率が高くなります。

　サルくん

ということは、推論AIとは、棋士が将棋で次の一手を考えるとき、ここに駒をさすと相手がこうくるから、みたいにあらゆる局面を想定して深読みしているんだ。

　チクタク先生

そんなイメージですね。LLMだと基本的には知っていることは回答できますが、調べても分からないことは当然回答できません。精度の悪い学習データがあるとハルシネーションを起こして「嘘」の回答もします。o1モデルが解答するのに時間をかけるようになったのは、答えが明確で長時間考えれば分かるような問題を、モンテカルロ木探索（MCTS）のようなアルゴリズムでシミュレーションしているからです。

　サルくん

つまり、知ってる知らないのような知識を問う問題じゃなくて、数学の問題みたいなのが得意ということだ。

　チクタク先生

そうです。しかも前述した『特性２』にあるような、『行き詰ったときにやり直すバックトラッキング能力』や、『間違いを認識して他の方法を試す自己修正能力』があるので、推論能力が飛躍的向上したのです。

　サルくん

先生！ここには、この2つの能力を『自然に獲得できた』とありますよ。本当ですか？

　チクタク先生

ここが謎なのです。これはインタビューされた研究者の発言なのですが、o1モデルの論文が公開されていないので詳細不明です。囲碁や将棋の世界なら閉じているので、木探索しても候補が無限にあるわけではないです。しかし現実世界だと無限に探索する可能性が出てくるので、現在の探索ルートは途中で止めて、別のルートを探索しなければならないことがあります。ですから、あるところまでいったら途中で引き返す、のようなアルゴリズムを開発時に組み込んでいると思っていました。それが、自然にできるようになったのなら驚きです。

　サルくん

また創発的現象ですかね。それと３番目に『推論時スケーリング則』も発見したとありますよ。

　チクタク先生

そうなんです。つまり、あまりにも巨大化してしまったGPTシリーズは、電力消費量やハードウェア規模からくる制限に加えて、学習するためのデータまですべて食い尽くそうとしています。あと数年で限界にくると思っていたのですが、推論時間をさらに延ばすことでAI進化の限界を伸ばせることができると判明したことは、とても重要なことです。

　サルくん

そうか。どんな難問でも考える時間を与えさえすれば解けるはずだな。じゃ、戦争ばかりしているバカな人類が、どうすれば戦争をしなくなるのか考えさせてみたらどうかな。

　チクタク先生

それは素晴らしいアイデアですね。もしかしたら、１年以上そればかり考え続けて他の依頼を受け付けなくなるかもしれませんが。

　サルくん

10年後にやっと解答した結果が、そんな方法は見つけられませんでした、かもしれないけど。

この記事のポイント

・OpenAIの推論AI「o1モデル」は、今までの大規模言語モデルとは原理が異なり、思考の連鎖（COT）と深層強化学習を使用している。
・さらに長時間の推論により、行き詰ったときにやり直すバックトラッキング能力と、間違いを認識して他の方法を試す自己修正能力がある。
・推論時間を延ばすことでAIの能力が向上する、推論時スケーリング則を新たに発見した。

著者：谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。

（TEXT：谷田部卓編集：藤冨啓之）