◀ 9.

マルチモーダル AI とは？GPT-4o・Gemini・Claude の使い方

▶

編集

本稿は マルチモーダル AI（Multimodal AI） に関する記事です。

この記事の要点

マルチモーダル AI = テキスト・画像・音声・動画など複数モダリティを 1 モデルで扱う AI
現代の主要 LLM（GPT-4o / Claude / Gemini）はマルチモーダルがネイティブ対応
技術的基盤: 共通の埋め込み空間 + Transformer + Cross-Attention
主要モデル: GPT-4o / Gemini / Claude 4 / Llama Vision / LLaVA / CLIP / Whisper / Sora
応用: 画像 QA / OCR / 表組み解析 / 動画理解 / 音声対話 / アクセシビリティ
主な課題: 計算量増大 / 学習データの偏り / プロンプトインジェクション / プライバシ

マルチモーダル AI とは？

マルチモーダル AI は、テキスト・画像・音声・動画・コードといった異なる種類のデータ（モダリティ）を 1 つのモデルで扱う AI です。「画像を見て質問に答える」「動画から要約を作る」「音声で会話する」など、人間に近い情報処理が可能になります。

2024〜2026 年に GPT-4o / Gemini / Claude 4 などの主要 LLM がネイティブにマルチモーダル化し、テキスト中心だった LLM は急速に「マルチモーダル基盤モデル」へと進化しました。

モダリティの分類

モダリティ	入力例	出力例
テキスト	質問・指示	回答・コード
画像	写真・スクリーンショット・図	説明文・分類結果・編集後画像
音声	音声録音・ストリーム	文字起こし・合成音声
動画	映像クリップ	要約・字幕・タイムスタンプ
コード	ソースコード・エラー	修正案・テスト・説明
3D / 点群	3D モデル・LiDAR	分類・生成
センサー	IoT・医療センサー	異常検知・予測

主要モデル

モデル	提供	対応モダリティ
GPT-4o / GPT-5	OpenAI	テキスト + 画像 + 音声（入出力）
Gemini 2.5	Google	テキスト + 画像 + 音声 + 動画
Claude 4 Opus / Sonnet	Anthropic	テキスト + 画像 + PDF
Llama 3.2 Vision / 4 系	Meta (OSS)	テキスト + 画像
Qwen-VL	Alibaba (OSS)	テキスト + 画像
LLaVA	OSS	テキスト + 画像
CLIP / SigLIP	OSS	画像とテキストの共通埋め込み
Whisper	OpenAI (OSS)	音声 → テキスト
Sora / Veo / Runway	OpenAI / Google / Runway	テキスト + 画像 → 動画
ElevenLabs	商用	テキスト → 音声 (TTS)
Suno / Udio	商用	テキスト → 音楽

マルチモーダルの 3 つの実現アプローチ

アプローチ	概要	代表例
1. パイプライン型	各モダリティを別モデルで処理（例: 画像 → キャプション → LLM）	古典的構成
2. 共通埋め込み	画像・テキスト等を同じベクトル空間に写像	CLIP、SigLIP
3. ネイティブマルチモーダル	事前学習段階から複数モダリティを統合	GPT-4o、Gemini、Claude 4

典型的な応用

分野	用途
画像 QA	「この写真に何が写っている？」「このグラフから読み取れる傾向は？」
OCR / 表組み解析	領収書・帳票・名刺の構造化抽出
UI/UX 解析	スクリーンショットからアプリ操作の提案・自動化
医療画像	X 線・CT・病理画像の補助診断
動画要約	会議録画・講義動画から議事録・章立て
アクセシビリティ	視覚障害者向けの画像説明、自動字幕
音声対話	ChatGPT Voice / Gemini Live で自然な会話
コンテンツ生成	画像・動画・音声・音楽の自動生成
ロボティクス	視覚と言語を統合して行動計画

最小サンプル: Claude で画像 QA

import base64
from anthropic import Anthropic

client = Anthropic()

with open("chart.png", "rb") as f:
img_b64 = base64.standard_b64encode(f.read()).decode()

res = client.messages.create(
model="claude-sonnet-4-0",
max_tokens=512,
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": img_b64}},
{"type": "text", "text": "このグラフのトレンドを 3 行で説明して"},
],
}],
)
print(res.content[0].text)

運用上のヒント

Tips

画像解像度は適度に。大きすぎると料金・遅延増、小さすぎると情報損失
OCR が必要ならマルチモーダル LLM 単独より専用 OCR と組合せる方が高精度なケースが多い
音声は長尺だと文字起こし + LLM のパイプラインが安定（GPT-4o リアルタイム音声は逆に対話向け）
動画はフレーム抽出 + キーフレーム要約からスタート（全フレーム投入は高コスト）
マルチモーダル入力ではテキストプロンプトで画像の見方を誘導（「左上の数値だけ」等）
ハルシネーション対策に「画像に写っていない情報は推測しない」を明示

注意点

よくある落とし穴・リスク

料金・遅延: 画像 1 枚で数千〜数万トークン相当。テキストのみより高コスト
個人情報・顔: 学習・保存ポリシーをベンダーの利用規約で確認
プロンプトインジェクション (画像版): 画像に書かれた文字が指示として解釈される事例あり
OCR 精度: 表組み・手書き・低解像度ではエラーが残る
動画は計算重い: 数分の動画でもトークン消費が膨大
医療・法的用途は規制対象。診断の最終判断に直接使わない
偽情報生成: ディープフェイク、なりすまし音声等の悪用リスク
透かし / 出所表示の義務化（EU AI Act 等）

ページ一覧

その他