まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい | データで越境者に寄り添うメディア データのじかん
カテゴリー
キーワード

まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい

         

企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。

そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。

日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは?

『kotoba-whisper-v2.0』は、Kotoba Technologies株式会社と米Amazon社のアプライド・サイエンティストである Asahi Ushio氏が共同開発した日本語ASR(自動音声認識:Automated Speech Recognition)に特化したAIモデルです。

OpenAI社の音声認識用言語学習モデルWhisperを日本語に特化して蒸留(distile:AI用語において、大規模なAIモデルの予測結果を利用して別の軽量なモデルを開発すること)しており、最新モデルであるwhisper-large-v3と同程度の精度で、6.3倍の速度を実現していると公式ページでは説明されています。

Hugging Faceにて公開されており、そこからデモにアクセスすることも可能です。

Hugging Faceとは?

2016年に立ち上げられた、AI・機械学習に特化した開発プラットフォームであり、モデルごとのバージョン管理が容易で、モデルやデータセット、アプリなどを共有するコミュニティとしても有益なことから「AI・機械学習のGitHub」と呼ばれることもあります。

『kotoba-whisper-v2.0』のように企業や組織の研究成果がHugging Faceで公開され、そのインフラを利用して容易にデモンストレーションやテストなども行えるため、AIや機械学習の開発者やリサーチャーの多くが一度は目にし、利用したことがあるサイトです。

Whisperとは?

ChatGPTの開発などで知られるOpenAI社が公開しているASRに特化した機械学習モデルです。2022年9月に公開され、68万時間の学習を経た精度の高さや、ローカル環境やHugging Face、GoogleClolaboratoryを使って無料で利用できることなどから(API利用は有料)、さまざまな音声認識や書き起こしで活用されています。

『kotoba-whisper-v2.0』に議事録を作成させてみた結果……

早速、デモページで『kotoba-whisper-v2.0』を利用してみましょう。

音声を直接マイクから入力・リアルタイム録音する「Microphone」と音声ファイルをアップロードする「Audio file」の2つのモードが用意されています。

「Microphone」でも文字起こしは行えたのですが、数十秒以上の音声ではエラーが出たため、今回は「Audio file」を利用してその議事録作成能力を確かめてみた結果をご紹介します。

今回用意したのは、以下のスクリプト。
田中さんと鈴木さんがデータ戦略について話す一幕を切り取っており、あえてリアルな会話に近づくよう言いよどみなども組み込んでいます。

田中さん:ええと、鈴木さん、私たちのデータガバナンスのアプローチについて再考する必要があると思いますね。ええ……(言いよどむ)特に、データの暗号化や、アクセス制御の強化が必要ではないでしょうか?

鈴木さん:ああ、そうですね、田中さん。実際、クラウドセキュリティアーキテクチャを見直して、なんでしょう、マルチファクター認証やエンドポイントセキュリティの強化も検討するべきと思います。それにより、データ侵害のリスクを、最小限に抑えられますからね。

【実際の音声】

 

さて、35秒の音声ファイルをアップロードし、「Submit」をクリックした結果は以下の通りでした。

鈴木さん私たちのデータガバナンスのアプローチについて再考する必要があると思いますね特にデータの暗号化やアクセス制御の強化が必要ではないでしょうかそうですね田中さん実際クラウドセキュリティアアーキティクチを見直して何でしょうマルチファクター認証やエンドポイントセキュリティの強化も検討するべきと思いますそれによりデータ侵害のリスクを最小限に抑えられますからね

いかがでしょう?

「クラウドセキュリティアアーキティクチ」など正確に記されていない部分もありますが、おおむね問題ない性能と言えるのではないでしょうか。

『kotoba-whisper-v2.0』の関連ツールには5千時間以上のアニメ長のセリフと台本でファインチューニングされた『Anime-Whisper』もあります。デモでは15秒までの音声にしか対応していないのですが、先ほどの「田中さん」の発言を読み込ませてみた結果は以下の通り。

えーと、鈴木さん。私たちのデータガバランスのアプローチについて、再校する必要があると思いますね。

こちらも一部誤字がありますが「えーと」という言いよどみや句読点まで再現されている点には、『kotoba-whisper-v2.0』にはない可能性が感じられますね。

句読点の追加や話者の分離も可能に! AIによる議事録作成の環境は着実に整いつつある

議事録作成に利用可能なAIツール・サービスは今や数多くリリースされており、急速に利用が広がっています。

その種類もインタビューの文字起こしに特化し、話者の分離や文章の要約といった機能も利用可能なRimo voice』や『Notta、『Microsoft Teams』や『Google Meet』といったオンライン会議に用いられるシステムに付属の文字起こし機能、AI文字起こし機能付きボイスレコーダーなどさまざまです。

そのなかで『kotoba-whisper-v2.0』が持つ特性は、無料であること、公開されているプログラムを利用してローカルやHugging Face、GoogleClolaboratoryで自由に利用できること、日本語に特化した蒸留により大幅な速度が期待できることの3つです。

なお、『kotoba-whisper』の開発は続々と進められており、すでに句読点の追加が可能な『kotoba-Whisper-v2.1』、さらに話者の分離機能が追加された『kotoba-whisper-v2.2』もリリースされています。

有料の既存サービスに比べ、設定の知識が必要でまた安定性の面ではまだまだ改善の余地はありそうですが、無料でこれまで考えられなかったレベルのAI議事録作成を利用できる環境は着実に整いつつあるといえるでしょう。

終わりに

生成AIサービスの利用において既に高い実用性が達成されている議事録作成分野に着目し、無料で利用できる日本語特化の文字起こしAI『kotoba-whisper-v2.0』についてご紹介しました。議事録作成やインタビューの文字起こしは今や、AIの力でほとんど自動化することが可能です。なかでも無料かつデータの機密性の高いローカル環境でも利用可能なツールは利用のハードルが非常に低いはず。今後の進化も大いに期待できる『kotoba-whisper』のデモを、まずは利用してみてはいかがでしょうか。

(宮田文机)

 

参照元

・kotoba-tech/kotoba-whisper-v2.0 ┃Hugging Face ・《議事録に関する意識調査》議事録作成に「AIによる録音&文字起こしサービス」を利用する人はわずか7% 上司の過半数が、部下に“議事録よりも発言や参加すること”を求めている実態が明らかに┃ソースネクスト株式会社 ・kotoba Technologies HP ・Introducing Whisper┃OpenAI

×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

データのじかん会員なら、
全てのコンテンツが
見放題・ダウンロードし放題
 

 データのじかんメール会員でできること

  • 会員限定資料がすべてダウンロードできる
  • セミナー開催を優先告知
  • 厳選情報をメルマガで確認
 
データのじかん会員について詳しく知りたい方
close close