マイクロソフトが10億トークンを扱える「LongNet」を発表 大規模言語モデルの最前線はどこへ向かう? | データで越境者に寄り添うメディア データのじかん
カテゴリー
キーワード

マイクロソフトが10億トークンを扱える「LongNet」を発表 大規模言語モデルの最前線はどこへ向かう?

         

AIの進歩は日進月歩。そのトップを走る企業の一角が『ChatGPT』を開発したOpenAIとパートナーシップを組み、AI搭載の検索エンジン『Bing』『Microsoft Edge』を運営する米マイクロソフトであることに間違いはありません。

そんな同社は2023年7月にも、「LongNet」「RetNet」という、大規模言語モデルやその基礎アーキテクチャとなる深層学習モデルについての論文を発表し、話題を呼びました。本記事ではそれらを中心に、AI開発研究の最前線についてリポートします。

「LongNet」とは?──なぜ注目を集めているのか、何ができるようになるのか

2023年7月6日に発表された「LongNet」は、現在の深層学習モデルのデファクトスタンダードである「Transformer」の発展型の一つです。2017年にGoogleの研究チームらによって発表された論文Attention is All You Needにて提案されたTransformer。

論文のタイトルでも示されている通り、深層学習モデルの構築において、それまで組み合わせられていた「リカレント」「畳み込み」ネットワークを排除し、「Attention」機構のみに基づくことで、並列処理やトレーニングにかかる時間、精度の大幅向上を達成したのがTransformerであり、今ではGoogleの『BERT』や、ChatGPTに用いられている『GPT』など、代表的な自然言語モデルのベースとなっています。

自然言語処理において大きな成果を達成した「Transformer」ですが、学習元となる文章の長さ(シーケンス長)に対し、2次関数的に計算量が増加するため、処理できるテキストの長さに限界がある、という課題が存在します。その解決にあたって、2019年発表のSparse Transformersなど、計算を効率化する手法が考案されてきました。

「LongNet」はその一種であり、「dilated attention」というシーケンス長の長さに合わせて指数関数的に注意のフィールドを分散させることで、下図の通り大幅な扱えるシーケンス長の飛躍を達成したということです。

Transformerのシーケンス長の時系列変化

※引用元:Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Nanning Zheng, Furu Wei『LongNet: Scaling Transformers to 1,000,000,000 Tokens』┃arXiv

ご覧の通り、それまでの自然言語処理モデルが扱えるトークン数(自然言語処理におけるテキストの最小単位)が~数百万以内に収まっているのに対し、「LongNet」が扱えるトークン数は10億以上と、まさに桁外れです。

「LongNet」は、一瞬でインターネットを丸ごと学習することができる?

2023年7月18日に発表された「RetNet(Retentive Network)」は、「Transformer」の後継モデルとして提案された深層学習モデルです。論文『Retentive Network: A Successor to Transformer for Large Language Models』では、GPUメモリの消費、スループット、レイテンシーといった指標で精度を犠牲にすることなく「Transformer」を上回ることが示されており、「LongNet」と同様に、扱えるシーケンス長の拡大や処理効率の向上を実現することが予想されます。

さて、「LongNet」や「RetNet」による大規模言語処理の発展は何を我々にもたらすのでしょうか?

そのイメージとして挙げられるのが、コーパス(構造化された自然言語の大規模データベース)やインターネット全体を一度に学習できるようになるということです。これにより、チャットボットAIが質問に答えるために使える情報の量は大きく高まり、資料数十冊を一瞬で取り込ませるなど目的に合わせたAIのチューニングも容易になります。その範囲は言語処理に留まらず、画像処理など他の分野にも及ぶことが予想され、人工知能全体の革新を推し進めることが予想されるのです。

Meta『Llama2』、Google『Bard』……生成AIの進化はつづいている

もちろん、AIを研究する企業はマイクロソフト社だけではありません。大規模言語モデルや深層学習モデルの発展は日々進んでいます。

たとえば、2023年7月18日に発表されたMetaの『Llama2』は、GPT-3.5の3月1日時点に匹敵する性能を持ちながら一部を除いて研究/商用が許諾されているオープンソース性の高さが魅力です。

また、TransformerをベースとするGoogleの『Bard』も2023年3月22日に一般公開され、対応言語を広げるとともに(日本語はすでに対応済み)、Google レンズと連携し画像も参照できるようになる、音声での対応を開始するなど、アップデートを重ねています。

2023年初頭より『ChatGPT』をきっかけににわかに盛り上がった「生成AIブーム」。そろそろAI疲れを感じている方もいるかもしれません。しかし、日々新たな進展が報じられるこの状況。まだまだ目が離せないといえるでしょう。

終わりに

2023年7月末時点における、AI開発の最新ニュースをマイクロソフトの大規模言語モデル「LongNet」を中心に取り上げてきました。

2023年7月27日にはマイクロソフトから日本政府へChatGPT技術が提供されることが報じられました。機械学習へのデータ利用における自由度の高さから「機械学習パラダイス」と称されることのある日本に対する、AI開発企業の注目度は少なくないと考えられます。我々自身もこの環境を活用できるよう、AI開発・活用の最前線に目を向けていきましょう。

(宮田文机)

 

参照元

・Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Nanning Zheng, Furu Wei『LongNet: Scaling Transformers to 1,000,000,000 Tokens』┃arXiv
・Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei『Retentive Network: A Successor to Transformer for Large Language Models』┃arXiv
・Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin『Attention Is All You Need』┃arXiv
・山下裕毅(Seamless)『10億トークンを処理できるマイクロソフトの言語生成AI「LongNet」、喉のMRIからAI音声合成など5つの重要論文を解説(生成AIウィークリー)』┃TECHNOEDGE
・Introducing Llama 2┃MetaAI
・Sparse Attentionについて分かりやすく解説!┃AGIRobots
・大規模言語モデル┃NRI
・Advancing AI for humanity
・Ignacio de Gregorio『Microsoft Just Showed us the Future of ChatGPT with LongNet』┃Medium
・サイトウケンジ,ITmedia『ChatGPT(3.5)に匹敵する「Llama 2」をローカルPCで動かしてみた』┃AI+ by ITmedia NEWS
・Google Bard
・樽井 秀人『GoogleのAIチャット「Bard」もしゃべるように ~比較的大規模なアップデートを実施』┃窓の杜
・Microsoft、日本政府にChatGPT技術提供 答弁案に活用┃日本経済新聞
・「日本は機械学習パラダイス」 その理由は著作権法にあり┃AI+ by ITmedia NEWS
×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しくデータのじかんフィーチャーズ データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から『World DX Journal』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの『ブックレビュー』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい差が付くKPIマネジメント 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ” CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources越境者のためのお役立ち資料集 データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、面白くするDATA LOVERS データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データマネジメント・ラジオ by データ横丁 データのじかんNews データのじかんNews データ・情報は生もの!『DX Namamono information』 データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
close close