ではさっそくですが、SLMの話になります。図はAIの多様化と階層化の話で出したものと同じです。この図はAIを規模別で表していますが、小型軽量のSLMは一般的に専門用途向けのAIです。
ただ日本では、SLMというと大半は日本語を専門に学習させたAI(LLM)という認識になっています。日本語特化型LLMと一般的には言われていますが、実際にはパラメータ数100億程度の小型の言語モデルです。
そういえば、日本語を最も”学習”しているのってどこなんですかね?
難しい質問ですね。NTT、NEC、IBM、オルツ社、サイバーエージェントなど、みんな我社が一番日本語性能が高いと宣伝しています。各種の日本語性能指標がありますが、日々性能が向上していくので実態は分かりません。
もっともOpenAIの『GPT-4日本語カスタムモデル』が最近登場したので、日本語性能だったらもちろんこのLLMがトップでしょう。
GPT-4がベースなら、超巨大LLMじゃないですか。数兆パラメータと言われているから、日本の軽量小型SLMと比較してはかわいそうです。
確かにそうですね。それにパラメータ数が単純に大きければ性能が良いわけではなく、学習データの質の方が性能に影響を与えている、という研究報告がありました。ハルシネーションの原因は質の悪い学習データにある、という話もありますし。
それでSLMは日本語特化型だけなんですか?
そうではありません。日本語特化型は、あくまでLLMのローカライズの話です。ビジネスでAIを利用する場合、巨大なLLMより学習コストが少なくカスタマイズが容易で、しかもレスポンスのよいSLMが主流になるはずです。
まだ正式リリースはほとんどないですが、医療業界向けや建築業界向けのような特定の業種向けSLMが数多く登場するはずです。
そんなSLMなら日本のIT企業でも開発できそうだな。
もっと重要なことは、小型軽量のSLMは、エッジAIになれることです。
エッジ型ということは、クラウド処理ではなくローカル側で処理することですよね。
そうです。GPTのような巨大LLMの学習には、NVIDIAのH200のような高性能GPUを数多く搭載したサーバが大量に必要です。しかし、わずかサーバ1台で10kWという通常のサーバの10倍を超える電力消費量と発熱量があり、従来の空冷ではチップを冷やせません。
このため液冷方式のサーバラックが必須です。このようなサーバを数千台以上稼働させるには、1都市に匹敵するほどの莫大な電力と取水が必要なので、現状ではアメリカにある大規模なAIデータセンターを使用することになります。
AIデータセンターの電力を確保するのに、原発一基が必要だって嘘か誠か揶揄されることもありますよね。
日本には、そのような高規格のデータセンターがまだなく、政府から数百億円の資金援助を得て北海道や千葉などに現在建築中です。
いづれにしても日本のユーザーが利用する場合には、データセンターが遠隔地にあるので、ネットワーク遅延が生じます。ビジネスユーザーで、車の自動運転やロボットの制御のような高速レスポンスが必要な場合には、これではLLMを利用できません。
そこで利用者のごく近い機器にSLMを入れて、AI機能をダイレクトに提供すれば解決できるという事で、エッジAIが生まれたのです。NVIDIAと手を組んだソフトバンクは、11月にエッジAIや様々なAI関連製品を発表しています。(註1)
さすがAI企業になると宣言した孫会長だ。続々と新技術を繰り出してきますね。
チャンスと見たら矢継ぎ早に巨額投資ができる、日本では唯一の企業ですからね。
それにしても、相変わらずAI業界は進化というか変化が速いですね。IT企業でも、何とか追従しているような状況のようだから、それ以外の業種のビジネスパーソンの大半は、この変化に追いつけないな。
ひと昔前、インターネット革命が起きて、その後スマホとSNSが世界を席巻したときは、それぞれ10年程度かけての進化でした。ですから、その渦中にいても、ある程度先読みはできました。
ところが現在のAI革命は、体感的にその10倍くらいの速度でビジネス環境が変化し続けています。これでは社会人の大半は追従できません。
たとえAIを利用して素早くビジネスAIアプリを開発できても、肝心の利用者であるビジネスパーソンが、機能を理解し新しいUI(ユーザーインターフェース)に慣れるには、それなりの時間がかかります。
しかもバージョンアップが頻繁にあるようでは、いつまでも使いこなせず定着しないでしょうね。
そうですよ。なんでMSはWindows10からWindows11に勝手にバージョンアップして、しかも細々とGUIを変更したりするんですかね。今までもWordやExcelは余計な大きなお世話機能ばかり追加し、GUIをさんざん変更したもんで、ユーザーにはすごい迷惑でしたよ。
バージョンアップするのはセキュリティ上必要なことです。しかしGUIを変更したがるのは、目新しいのが大好きなエンジニアが企画設計しているからだと思います。大半のビジネスパーソンが、使い慣れたGUIが変わると、新しいGUIを覚えることが苦痛だとは思ってもいないのですよ。
じゃあ、まったく新しいAI機能が入ると、まったく新しいGUIになるんですかね。
ChatGPTはGUIが不要で、自然言語を使って会話で利用できたので、世界中の利用者が2億人まで増えました。ただビジネス利用の場合は、会話だけでは使える範囲が狭くなります。
したがってAIを本格的に社会実装するには、利用者にAIを意識させないよう、AIに作業指示するためのGUIを、利用者から隠ぺいするしかないと思います。
スマホの利用者はスマホで動画を観ていても、その裏でネットワーク機器やサーバなど様々な機器が稼働していることを、気にしていません。
SLMのようなAIも、利用者の前面には出ずに、インフラの一部にならなくてはいけません。いわば、ステルスAIにならなければならないと考えています。
ステルスAIなんて言葉は聞いたことがないですよ。
今、私が作った造語ですから初めてのはずです。冒頭で使った「AIの多様化と階層化」の図の下にありますが、個人用AI・パーソナルエージェントは、順次スマホに導入されていくはずです。現在でもAmazonなどでは、ショッピングアシスタント(註2)が発表されていますが、ユーザーが本当に欲しいのは様々なショップを横断的に利用できるものです。
当初はGUIを使って、買い物なら欲しいものと機能と予算などを入力すれば、複数のショップを横断的に調べて結果を表示するエージェントが登場します。それが次第に、音声でパーソナルエージェントと会話しながら決められるようになるはずです。
そこまでスマホでできるなら、店員に聞くのと同じだから便利だな。
ITとかAIがあまりに進化が激しいので、せっかくの便利機能を利用できない人が大半になっています。しかし「会話」という人類が数万年前から使っているコミュニケーション方法なら、老若男女を問わず誰でも使えます。
LLMの登場によって、コンピュータとのコミュニケーション方法が、今から劇的に変化していくはずです。
まぁ、なんでもかんでも会話しながらAIに指示すればよい、というわけにはいかないでしょうけどね。
日本語の音の最小単位である音節は、英語と比べて約1/30と非常に少ないため、日本語には同音異義語が大量にあります。ちなみに「こうしょう」という言葉には、「交渉」「考証」「高尚」「口承」「校章」等々50もあります。
ですから、AIも聞き違いを起こす可能性があるので、正確性が必要な場合には復唱して確認したり、文字での表示が必要になりますね。
しかしステルスAIになったら、どのマシンが会話できるのか分かるのかな?
大勢の人がいるような雑踏にいる場合、AIは誰の指示に対して応答するのか判別しなければなりません。スマホが今後どのようなデバイスになるかは分かりませんが、いずれにしてもパーソナライズされたモバイルデバイスは、今後も使われていくはずです。そしてそのデバイスは、当面の間人と会話できる機能が必須になると思っています。
ここで時間切れなので、この続きは次回にします。
・SLMは小型軽量の言語モデルだけでなく、特定用途向けにチューニングした大規模言語モデルも含まれる。日本では日本語に特化して学習させたSLMが多い。
・エッジAIはSLMの特性を活かし、クラウドではなくユーザーに近い環境に置いて、高速レスポンスが実現できるAIである。
・AIの進化速度があまりに速く、大半のユーザーは高度で複雑な機能の理解と操作ができない。今後AIはステルス化し、会話でコミュニケーションしていくだろう。
【第4回へ続く】
著者:谷田部卓
AIセミナー講師、著述業、CGイラストレーターなど、主な著書に、MdN社「アフターコロナのITソリューション」「これからのAIビジネス」、日経メディカル「医療AI概論」他、美術展の入賞実績もある。
(TEXT:谷田部卓 編集:藤冨啓之)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!
階層化する知能というテーマを設定して、2回話してきました。予定では主にSLMについて話すつもりでしたが、AI業界にはよくあることで毎週のように大きな発表があり、なかなか想定通りにはいきませんね。
愚痴はさておき、SLMの話は?