9.

マルチモーダル AI とは?GPT-4o・Gemini・Claude の使い方

編集

本稿は マルチモーダル AI(Multimodal AI) に関する記事です。

この記事の要点
  • マルチモーダル AI = テキスト・画像・音声・動画など複数モダリティを 1 モデルで扱う AI
  • 現代の主要 LLM(GPT-4o / Claude / Gemini)はマルチモーダルがネイティブ対応
  • 技術的基盤: 共通の埋め込み空間 + Transformer + Cross-Attention
  • 主要モデル: GPT-4o / Gemini / Claude 4 / Llama Vision / LLaVA / CLIP / Whisper / Sora
  • 応用: 画像 QA / OCR / 表組み解析 / 動画理解 / 音声対話 / アクセシビリティ
  • 主な課題: 計算量増大 / 学習データの偏り / プロンプトインジェクション / プライバシ

マルチモーダル AI とは?

マルチモーダル AI は、テキスト・画像・音声・動画・コードといった異なる種類のデータ(モダリティ)を 1 つのモデルで扱う AI です。「画像を見て質問に答える」「動画から要約を作る」「音声で会話する」など、人間に近い情報処理が可能になります。

2024〜2026 年に GPT-4o / Gemini / Claude 4 などの主要 LLM がネイティブにマルチモーダル化し、テキスト中心だった LLM は急速に「マルチモーダル基盤モデル」へと進化しました。

モダリティの分類

モダリティ入力例出力例
テキスト質問・指示回答・コード
画像写真・スクリーンショット・図説明文・分類結果・編集後画像
音声音声録音・ストリーム文字起こし・合成音声
動画映像クリップ要約・字幕・タイムスタンプ
コードソースコード・エラー修正案・テスト・説明
3D / 点群3D モデル・LiDAR分類・生成
センサーIoT・医療センサー異常検知・予測

主要モデル

モデル提供対応モダリティ
GPT-4o / GPT-5OpenAIテキスト + 画像 + 音声(入出力)
Gemini 2.5Googleテキスト + 画像 + 音声 + 動画
Claude 4 Opus / SonnetAnthropicテキスト + 画像 + PDF
Llama 3.2 Vision / 4 系Meta (OSS)テキスト + 画像
Qwen-VLAlibaba (OSS)テキスト + 画像
LLaVAOSSテキスト + 画像
CLIP / SigLIPOSS画像とテキストの共通埋め込み
WhisperOpenAI (OSS)音声 → テキスト
Sora / Veo / RunwayOpenAI / Google / Runwayテキスト + 画像 → 動画
ElevenLabs商用テキスト → 音声 (TTS)
Suno / Udio商用テキスト → 音楽

マルチモーダルの 3 つの実現アプローチ

アプローチ概要代表例
1. パイプライン型各モダリティを別モデルで処理(例: 画像 → キャプション → LLM)古典的構成
2. 共通埋め込み画像・テキスト等を同じベクトル空間に写像CLIP、SigLIP
3. ネイティブマルチモーダル事前学習段階から複数モダリティを統合GPT-4o、Gemini、Claude 4

典型的な応用

分野用途
画像 QA「この写真に何が写っている?」「このグラフから読み取れる傾向は?」
OCR / 表組み解析領収書・帳票・名刺の構造化抽出
UI/UX 解析スクリーンショットからアプリ操作の提案・自動化
医療画像X 線・CT・病理画像の補助診断
動画要約会議録画・講義動画から議事録・章立て
アクセシビリティ視覚障害者向けの画像説明、自動字幕
音声対話ChatGPT Voice / Gemini Live で自然な会話
コンテンツ生成画像・動画・音声・音楽の自動生成
ロボティクス視覚と言語を統合して行動計画

最小サンプル: Claude で画像 QA

import base64
from anthropic import Anthropic

client = Anthropic()

with open("chart.png", "rb") as f:
    img_b64 = base64.standard_b64encode(f.read()).decode()

res = client.messages.create(
    model="claude-sonnet-4-0",
    max_tokens=512,
    messages=[{
        "role": "user",
        "content": [
            {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": img_b64}},
            {"type": "text", "text": "このグラフのトレンドを 3 行で説明して"},
        ],
    }],
)
print(res.content[0].text)

運用上のヒント

Tips
  • 画像解像度は適度に。大きすぎると料金・遅延増、小さすぎると情報損失
  • OCR が必要ならマルチモーダル LLM 単独より専用 OCR と組合せる方が高精度なケースが多い
  • 音声は長尺だと文字起こし + LLM のパイプラインが安定(GPT-4o リアルタイム音声は逆に対話向け)
  • 動画はフレーム抽出 + キーフレーム要約からスタート(全フレーム投入は高コスト)
  • マルチモーダル入力ではテキストプロンプトで画像の見方を誘導(「左上の数値だけ」等)
  • ハルシネーション対策に「画像に写っていない情報は推測しない」を明示

注意点

よくある落とし穴・リスク
  • 料金・遅延: 画像 1 枚で数千〜数万トークン相当。テキストのみより高コスト
  • 個人情報・顔: 学習・保存ポリシーをベンダーの利用規約で確認
  • プロンプトインジェクション (画像版): 画像に書かれた文字が指示として解釈される事例あり
  • OCR 精度: 表組み・手書き・低解像度ではエラーが残る
  • 動画は計算重い: 数分の動画でもトークン消費が膨大
  • 医療・法的用途は規制対象。診断の最終判断に直接使わない
  • 偽情報生成: ディープフェイク、なりすまし音声等の悪用リスク
  • 透かし / 出所表示の義務化(EU AI Act 等)

関連

編集
Post Share
子ページ

子ページはありません

同階層のページ
  1. LLM (大規模言語モデル)
  2. Transformer
  3. Attention (注意機構)
  4. Embedding (埋め込み)
  5. Prompt Engineering
  6. RAG (検索拡張生成)
  7. ファインチューニング
  8. AIエージェント
  9. マルチモーダルAI
  10. トークンとコンテキストウィンドウ
  11. Diffusion Model (拡散モデル)

最近更新/作成されたページ