カテゴリー
キーワード

トークンとは? 各AIサービスのAPI利用料はどのように算出される?

         

生成AIによる業務効率化の波はホワイトカラーの定型業務から始まると考えられます。たとえば「NRI「AIの導入に関するアンケート調査」(2023年5月)」によると「挨拶文の作成」「記事やシナリオの作成」「ドキュメントの要約」「問い合わせ対応」などの業務で利用されている割合が高く、今後活用に期待が集まっているのが「ドキュメントの要約」「マニュアルの作成」などだということがわかります。

このような業務に付随するのが「テキストデータの入力あるいは出力」です。そこで避けては通れないのが「トークンあたりのコスト」という視点。

本記事ではLLMにおけるトークンとは何かから、ChatGPT、Claude3、Geminiなど主要な生成AIサービスの1Mトークン当たりのAPI料金、日本語と英語のトークンに関する違いなどについてご紹介します。

トークンとは? LLMはどのように自然言語を処理するのか

生成AIの入力・出力におけるトークンとは、自然言語(英語や日本語など、人間が会話や文章のやり取りで用いる言語)をLLM(Large Language Models:大規模言語モデル)が扱いやすいよう最小単位に分割したものを指します。

LLMは「’AI’, ‘推’, ‘論’, ‘と’, ‘は’,’,’」といったようにテキストをトークンごとに分割し、それぞれに結合や重みづけといった統計的手法を用いて、関係性を分析します。たとえば、GPTやGeminiなど主要なLLMの根幹技術のひとつであるTransformerモデルは、「トークン化→埋め込み→位置埋め込み」という流れで「テキストのトークン化→数値情報(ベクトル)に変換→トークンの順序をベクトルに変換」という流れを経て、次の単語の予測を行いテキストの生成を可能にします。

トークン化(トークナイゼーション)には下記のような手法が存在し、それぞれのサービスやAIモデルによってトークン化の手法は異なります。

・単語ベース:空白や句読点を基にテキストを単語に分割する手法
・サブワードベース: 接頭辞や語根など、単語をより小さい単位に分割する手法
・文字ベース: テキストを個々の文字単位で分割する手法

また、たとえば日本語は単語ごとにスペースを区切るルールがないため、MeCabなど専門のシステムを用いた形態素解析や文字ベースの手法によってトークン化が行われます。

ChatGPT、Claude3、Gemini……各生成AIのAPI利用料は?

企業や個人がAIを利用するにあたってトークンが重要なのは、下記のような理由があるからです。

①一度に処理(入力/出力)できるトークン数がAIモデルによって違う
②トークン当たりのAPI使用料金がAIモデルによって違う

2024年5月31日時点のChatGPT、Claude3、Geminiの処理できるトークン数と1M(100万)トークン当たりのAPIコストの目安価格(ドル)は以下の通りです。

 

処理できるトークン数

APIコストの目安( 1Mトークンあたり)

ChatGPT

4096トークン


※APIで拡張でき、GPT-4 Turboを利用することで12万8,000トークンも可能

<gpt-3.5-turbo-0125>

・入力:$0.50

・出力:$1.50


<gpt-3.5-turbo-instruct>

・入力:$1.50

・出力:$2.00 


<gpt-4o>

・入力:$5

・出力:$15


<gpt-4>

・入力:$30

・出力:$60


<gpt-4-32k>

・入力:$60

・出力:$120


<gpt-4-turbo>

・入力:$10

・出力:$30

Claude3

20万トークン


※能力的には100万トークン超が対応可能との見通しも

<Claude3 Haiku>

・入力:$0.25

・出力:$1.25


<Claude3 Sonnet>

・入力:$3

・出力:$15


<Claude3 Opus>

・入力:$15 

・出力:$75

Gemini

<Gemini 1.0 Pro>

3万2,760トークン


<Gemini 1.5 Pro>

100万 トークン


<Gemini 1.5 Flash>

100万 トークン

<Gemini 1.0 Pro>

・入力:$0.5

・出力:$0.5


<Gemini 1.5 Pro>

■プロンプト長:~ 12万8,000 トークン

・入力:$3.5

・出力:$10.5


■プロンプト長: 12万8,000 トークン~

・入力:$7.0

・出力:$21.0


<Gemini 1.5 Flash>

■プロンプト長:~ 12万8,000 トークン

・入力:$0.35

・出力:$1.05


■プロンプト長: 12万8,000 トークン~

・入力:$0.7

・出力:$2.1

※2024年5月31日時点のデータです。

ご覧の通りモデル・バージョンや入力するプロンプト長によってAPI料金には開きがあり、用途に合わせて過不足ない能力・コストのAIモデルを選定することが重要です。

日本語は英語に比べてトークンが多くなりやすい?

日本語は英語に比べてトークンが多くなりやすいことをみなさんはご存じでしょうか?

たとえば、本記事の一部のテキストをTokenizer(トークン化の結果を見える化してくれるツール)に入力した結果が以下です。

ご覧の通り、トークン数(Tokens)は101、文字数(Charactors)は116と表示されています。次は、同じ文章をDeepL翻訳で英訳し、同様に入力した結果を見てみましょう。


文字数は248と倍増し、反対にトークン数は47に半減しています。

このような言語の違いによる特性から、英訳したプロンプトを入力する(英語でテキストを生成させる)ことで、API料金を節約可能であると考えられます。トークン数を減らすことは、コストを削減できるだけでなく、処理速度の加速にもつながります。

■Tokenizer
https://platform.openai.com/tokenizer

終わりに

既存の生成AIを使ったサービスや製品を生み出すにあたって避けては通れないトークンの基礎知識についてご紹介しました。従量課金型のサービスにおいて、ROIを最大化するための戦略を探ることは、導入を成功に導くにあたって不可欠です。生成AIはまだ普及し始めたばかりですが、今からベストプラクティスを探ることが活用成功を左右するでしょう。

(宮田文机)

 

参照元

・アンケート調査にみる「生成AI」のビジネス利用の実態と意向┃NRI ・Tokenizer┃OpenAI ・生成AIのAPIトークン料金計算ツール┃生成AIプロンプト研究所 ・大規模自然言語モデル(LLM)で利用されるトークナイザーについて┃東京エレクトロンデバイス株式会社 ・日本語LLMにおけるトークナイザーの重要性┃DATA Analytics LABO ・es『ChatGPTを動かす機械学習モデルTransformerをゼロから理解する。』┃note ・トークンについて┃Microsoft ・Pricing┃OpenAI ・GoogleAI for Developers ・Build with Claude┃Anthropic

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データのじかんNews データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
モバイルバージョンを終了