まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい | データで越境者に寄り添うメディア データのじかん
カテゴリー
キーワード

まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい

         

企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。

そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。

日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは?

『kotoba-whisper-v2.0』は、Kotoba Technologies株式会社と米Amazon社のアプライド・サイエンティストである Asahi Ushio氏が共同開発した日本語ASR(自動音声認識:Automated Speech Recognition)に特化したAIモデルです。

OpenAI社の音声認識用言語学習モデルWhisperを日本語に特化して蒸留(distile:AI用語において、大規模なAIモデルの予測結果を利用して別の軽量なモデルを開発すること)しており、最新モデルであるwhisper-large-v3と同程度の精度で、6.3倍の速度を実現していると公式ページでは説明されています。

Hugging Faceにて公開されており、そこからデモにアクセスすることも可能です。

Hugging Faceとは?

2016年に立ち上げられた、AI・機械学習に特化した開発プラットフォームであり、モデルごとのバージョン管理が容易で、モデルやデータセット、アプリなどを共有するコミュニティとしても有益なことから「AI・機械学習のGitHub」と呼ばれることもあります。

『kotoba-whisper-v2.0』のように企業や組織の研究成果がHugging Faceで公開され、そのインフラを利用して容易にデモンストレーションやテストなども行えるため、AIや機械学習の開発者やリサーチャーの多くが一度は目にし、利用したことがあるサイトです。

Whisperとは?

ChatGPTの開発などで知られるOpenAI社が公開しているASRに特化した機械学習モデルです。2022年9月に公開され、68万時間の学習を経た精度の高さや、ローカル環境やHugging Face、GoogleClolaboratoryを使って無料で利用できることなどから(API利用は有料)、さまざまな音声認識や書き起こしで活用されています。

『kotoba-whisper-v2.0』に議事録を作成させてみた結果……

早速、デモページで『kotoba-whisper-v2.0』を利用してみましょう。

音声を直接マイクから入力・リアルタイム録音する「Microphone」と音声ファイルをアップロードする「Audio file」の2つのモードが用意されています。

「Microphone」でも文字起こしは行えたのですが、数十秒以上の音声ではエラーが出たため、今回は「Audio file」を利用してその議事録作成能力を確かめてみた結果をご紹介します。

今回用意したのは、以下のスクリプト。
田中さんと鈴木さんがデータ戦略について話す一幕を切り取っており、あえてリアルな会話に近づくよう言いよどみなども組み込んでいます。

田中さん:ええと、鈴木さん、私たちのデータガバナンスのアプローチについて再考する必要があると思いますね。ええ……(言いよどむ)特に、データの暗号化や、アクセス制御の強化が必要ではないでしょうか?

鈴木さん:ああ、そうですね、田中さん。実際、クラウドセキュリティアーキテクチャを見直して、なんでしょう、マルチファクター認証やエンドポイントセキュリティの強化も検討するべきと思います。それにより、データ侵害のリスクを、最小限に抑えられますからね。

【実際の音声】

 

さて、35秒の音声ファイルをアップロードし、「Submit」をクリックした結果は以下の通りでした。

鈴木さん私たちのデータガバナンスのアプローチについて再考する必要があると思いますね特にデータの暗号化やアクセス制御の強化が必要ではないでしょうかそうですね田中さん実際クラウドセキュリティアアーキティクチを見直して何でしょうマルチファクター認証やエンドポイントセキュリティの強化も検討するべきと思いますそれによりデータ侵害のリスクを最小限に抑えられますからね

いかがでしょう?

「クラウドセキュリティアアーキティクチ」など正確に記されていない部分もありますが、おおむね問題ない性能と言えるのではないでしょうか。

『kotoba-whisper-v2.0』の関連ツールには5千時間以上のアニメ長のセリフと台本でファインチューニングされた『Anime-Whisper』もあります。デモでは15秒までの音声にしか対応していないのですが、先ほどの「田中さん」の発言を読み込ませてみた結果は以下の通り。

えーと、鈴木さん。私たちのデータガバランスのアプローチについて、再校する必要があると思いますね。

こちらも一部誤字がありますが「えーと」という言いよどみや句読点まで再現されている点には、『kotoba-whisper-v2.0』にはない可能性が感じられますね。

句読点の追加や話者の分離も可能に! AIによる議事録作成の環境は着実に整いつつある

議事録作成に利用可能なAIツール・サービスは今や数多くリリースされており、急速に利用が広がっています。

その種類もインタビューの文字起こしに特化し、話者の分離や文章の要約といった機能も利用可能なRimo voice』や『Notta、『Microsoft Teams』や『Google Meet』といったオンライン会議に用いられるシステムに付属の文字起こし機能、AI文字起こし機能付きボイスレコーダーなどさまざまです。

そのなかで『kotoba-whisper-v2.0』が持つ特性は、無料であること、公開されているプログラムを利用してローカルやHugging Face、GoogleClolaboratoryで自由に利用できること、日本語に特化した蒸留により大幅な速度が期待できることの3つです。

なお、『kotoba-whisper』の開発は続々と進められており、すでに句読点の追加が可能な『kotoba-Whisper-v2.1』、さらに話者の分離機能が追加された『kotoba-whisper-v2.2』もリリースされています。

有料の既存サービスに比べ、設定の知識が必要でまた安定性の面ではまだまだ改善の余地はありそうですが、無料でこれまで考えられなかったレベルのAI議事録作成を利用できる環境は着実に整いつつあるといえるでしょう。

終わりに

生成AIサービスの利用において既に高い実用性が達成されている議事録作成分野に着目し、無料で利用できる日本語特化の文字起こしAI『kotoba-whisper-v2.0』についてご紹介しました。議事録作成やインタビューの文字起こしは今や、AIの力でほとんど自動化することが可能です。なかでも無料かつデータの機密性の高いローカル環境でも利用可能なツールは利用のハードルが非常に低いはず。今後の進化も大いに期待できる『kotoba-whisper』のデモを、まずは利用してみてはいかがでしょうか。

(宮田文机)

 

参照元

・kotoba-tech/kotoba-whisper-v2.0 ┃Hugging Face ・《議事録に関する意識調査》議事録作成に「AIによる録音&文字起こしサービス」を利用する人はわずか7% 上司の過半数が、部下に“議事録よりも発言や参加すること”を求めている実態が明らかに┃ソースネクスト株式会社 ・kotoba Technologies HP ・Introducing Whisper┃OpenAI

×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しくデータのじかんフィーチャーズ データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から『World DX Journal』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの『ブックレビュー』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい差が付くKPIマネジメント 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ” CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources越境者のためのお役立ち資料集 データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、面白くするDATA LOVERS データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データマネジメント・ラジオ by データ横丁 データのじかんNews データのじかんNews データ・情報は生もの!『DX Namamono information』 データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
close close