カテゴリー
キーワード

「マルチモーダルAI」とは? AIによる学習や生成、識別になぜ、どのような効果をもたらす?

         

OpenAI社のGPT4、Google社のGemini(旧Bard)、Anthropic社のClaude3など、現在有力視されているAIサービスの多くが「マルチモーダルAI」の側面を持つことをみなさんはご存じでしょうか。

コンテンツ生成やマーケティング、品質管理、自動運転などその活用はすでにさまざまな分野に広がっています。

マルチモーダルAIとは何なのか、なぜマルチモーダルであることが重要なのか、どのようなサービスでマルチモーダルAIが利用できるのかなど、今後のAI活用で押さえておきたいポイントを押さえましょう!

マルチモーダルAIは‟複数の異なるタイプのデータ(モダリティ)を処理することができる”

マルチモーダルAIは‟複数の異なるタイプのデータ(モダリティ)を処理することができる人工知能”のことを指します。その対象にはテキスト、画像、音声、ビデオなどが含まれ、それぞれのモダリティから情報を統合して解析や予測を行います。たとえば、マルチモーダルAIは、画像内のオブジェクトを識別すると同時に、その画像に関連するテキストや音声データを解析することが可能です。

この技術の利点は、単一のモダリティだけを用いる場合に比べて、より豊かで正確な情報を抽出できることです。複数のデータソースからの情報が補完し合うため、より複雑なタスクを効果的に処理できるようになるのです。たとえば、防犯カメラが映像と音声情報を同時に処理できれば、より正確な場面判断が可能になるでしょう。さらに、異なるモダリティのデータからの共起関係を活用することで、ラベル付けのコストを削減しながら少ない教師データで効率的にAI開発が進められるともいわれています。

マルチモーダルAIの対義語は「シングルモーダルAI」であり、「テキスト→テキスト」「画像→テキスト」など、一種類のモダリティのみの処理が可能です。

具体的なマルチモーダルAIの活用イメージは?

さまざまな分野でその活用イメージをより具体的に見ていきましょう。

コンテンツ生成

テキストの説明から画像を生成する、あるいは画像に基づいてテキストを生成するなど、異なるモダリティを交互に使用して創造的なコンテンツを作成します。

マーケティング

消費者の行動、テキストフィードバック、画像認識を組み合わせて、ターゲットにカスタマイズされたマーケティング戦略を開発します。

品質管理

製品の画像、センサーデータ、作業手順のテキストなどを分析して、製品の品質を保証し、製造プロセスを最適化します。

自動運転

視覚データ、センサー情報、音声命令など、複数の入力を統合して車両の周囲環境を認識し、リアルタイムでの安全な運転決定を支援します。

医療

画像(X線、MRIなど)、患者の記録、音声データを統合して、診断の精度を高めたり、個々の患者に合わせた治療計画を立てたりします。

教育

テキスト、画像、ビデオなどの教材や生徒の表情・反応などさまざまな情報を統合して、最適な教育計画やインタラクティブな学習体験を提供します。

今後、AI技術の進化とともに、さらに多くのモダリティが統合され、より高度なマルチモーダルシステムが開発されることが期待されます。この進化は、AIがより人間らしい認識能力を持つことを可能にします。今後、多様な産業や日常生活のさまざまなシーンでマルチモーダルAIの活用が進むでしょう。

GPT4・Gemini・Claude3をマルチモーダル機能で分類してみた

日常的にAIサービスを利用していると、複数のタイプのデータを一画面で出力できるものとそうでないものが存在することに気づくはずです。たとえば、2024年5月時点で冒頭で触れた3種の生成系AIサービスをマルチモーダル機能で分類した結果が以下です。

同一ページから複数のタイプのデータの入力・出力が可能

・GPT4(実際にはDALL-EとAPI連携)
・Gemini

同一ページから複数のタイプのデータの入力が可能/出力は不可能

・Claude3

Geminiの魅力は無料版でも入力・出力ともにマルチモーダル機能(テキスト・画像)が利用できることです。ただし、英語で指示をする必要があったり、生成できる画像の範囲が狭かったりするなどその利用には制約があります。そのため、現時点の利便性では有料の「ChatGPT Plus」で利用可能になるGPT4に軍配が上がるでしょう(無料版のGPT3.5はシングルモーダルAI)。ただし、上記の通りGPTの画像生成はそれに特化したDALL-EとのAPI連携によって実現されているため、厳密な意味でのマルチモーダルAI性が高いのはGeminiといえるかもしれません。

また、MidjourneyやStable Diffusionなど画像生成AIのプロンプト作成にClaude3が用いられる例なども多く見られます。

このように、現時点でのマルチモーダルAIは学習元データの多様性に特化しており、出力のマルチモーダルはAPI連携や複数サービスを組み合わせることで実現されるのが主流といえるでしょう。

終わりに

生成・識別などの種別を問わずAIの可能性を大いに広げる「マルチモーダルAI」についてご紹介しました。一般的に、我々人間はテキスト、画像、音声など複数のモダリティをもとに学習を行っており、汎用人工知能(AGI)の実現に当たってマルチモーダルAIの開発が不可欠なステップであることは間違いありません。

足元のAI開発・活用においても、テキストのみならず画像、音声、数値などさまざまなデータが利用できる可能性に目を向けてみることが重要です。

(宮田文机)

 

参照元

・マルチモーダルAIとは?┃産総研マガジン ・大量の実画像データの収集が不要なAIを開発―数式からAIが自動学習、人の判断を経た学習と同程度以上の認識精度を実現―┃NEDO ・Gemini: A Family of Highly Capable Multimodal Models┃Google DeepMind

×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しくデータのじかんフィーチャーズ データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から『World DX Journal』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの『ブックレビュー』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい差が付くKPIマネジメント 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ” CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources越境者のためのお役立ち資料集 データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、面白くするDATA LOVERS データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データマネジメント・ラジオ by データ横丁 データのじかんNews データのじかんNews データ・情報は生もの!『DX Namamono information』 データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
close close