ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
本稿は マルチモーダル AI(Multimodal AI) に関する記事です。
| この記事の要点 |
|---|
|
マルチモーダル AI とは?
マルチモーダル AI は、テキスト・画像・音声・動画・コードといった異なる種類のデータ(モダリティ)を 1 つのモデルで扱う AI です。「画像を見て質問に答える」「動画から要約を作る」「音声で会話する」など、人間に近い情報処理が可能になります。
2024〜2026 年に GPT-4o / Gemini / Claude 4 などの主要 LLM がネイティブにマルチモーダル化し、テキスト中心だった LLM は急速に「マルチモーダル基盤モデル」へと進化しました。
モダリティの分類
| モダリティ | 入力例 | 出力例 |
|---|---|---|
| テキスト | 質問・指示 | 回答・コード |
| 画像 | 写真・スクリーンショット・図 | 説明文・分類結果・編集後画像 |
| 音声 | 音声録音・ストリーム | 文字起こし・合成音声 |
| 動画 | 映像クリップ | 要約・字幕・タイムスタンプ |
| コード | ソースコード・エラー | 修正案・テスト・説明 |
| 3D / 点群 | 3D モデル・LiDAR | 分類・生成 |
| センサー | IoT・医療センサー | 異常検知・予測 |
主要モデル
| モデル | 提供 | 対応モダリティ |
|---|---|---|
| GPT-4o / GPT-5 | OpenAI | テキスト + 画像 + 音声(入出力) |
| Gemini 2.5 | テキスト + 画像 + 音声 + 動画 | |
| Claude 4 Opus / Sonnet | Anthropic | テキスト + 画像 + PDF |
| Llama 3.2 Vision / 4 系 | Meta (OSS) | テキスト + 画像 |
| Qwen-VL | Alibaba (OSS) | テキスト + 画像 |
| LLaVA | OSS | テキスト + 画像 |
| CLIP / SigLIP | OSS | 画像とテキストの共通埋め込み |
| Whisper | OpenAI (OSS) | 音声 → テキスト |
| Sora / Veo / Runway | OpenAI / Google / Runway | テキスト + 画像 → 動画 |
| ElevenLabs | 商用 | テキスト → 音声 (TTS) |
| Suno / Udio | 商用 | テキスト → 音楽 |
マルチモーダルの 3 つの実現アプローチ
| アプローチ | 概要 | 代表例 |
|---|---|---|
| 1. パイプライン型 | 各モダリティを別モデルで処理(例: 画像 → キャプション → LLM) | 古典的構成 |
| 2. 共通埋め込み | 画像・テキスト等を同じベクトル空間に写像 | CLIP、SigLIP |
| 3. ネイティブマルチモーダル | 事前学習段階から複数モダリティを統合 | GPT-4o、Gemini、Claude 4 |
典型的な応用
| 分野 | 用途 |
|---|---|
| 画像 QA | 「この写真に何が写っている?」「このグラフから読み取れる傾向は?」 |
| OCR / 表組み解析 | 領収書・帳票・名刺の構造化抽出 |
| UI/UX 解析 | スクリーンショットからアプリ操作の提案・自動化 |
| 医療画像 | X 線・CT・病理画像の補助診断 |
| 動画要約 | 会議録画・講義動画から議事録・章立て |
| アクセシビリティ | 視覚障害者向けの画像説明、自動字幕 |
| 音声対話 | ChatGPT Voice / Gemini Live で自然な会話 |
| コンテンツ生成 | 画像・動画・音声・音楽の自動生成 |
| ロボティクス | 視覚と言語を統合して行動計画 |
最小サンプル: Claude で画像 QA
|
import base64 |
運用上のヒント
| Tips |
|---|
|
注意点
| よくある落とし穴・リスク |
|---|
|
関連
- 親カテゴリ: AIの基礎概念
- 関連: LLM / Transformer / Embedding / Attention
- サービス: ChatGPT / Claude / Gemini / 画像・動画・音声生成AI
ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
子ページはありません
人気ページ
- 1 Eclipseで「サーバーに追加または除去できるリソースがありません。」の原因と対処法
- 2 tomcat の起動 / 停止ログと catalina.log・catalina.out の違い
- 3 【Javascript】base urlを取得する方法
- 4 YouTube Data API (v3) のエラー一覧|403系エラーの確認ポイント
- 5 Spring Frameworkのアノテーション一覧
- 6 Laravelのエラー一覧|原因と対処の入口ページ
- 7 3D グラフィックスとは?Unity・OpenGL・DirectX の基礎
- 8 【Spring】@Valueアノテーションとは
- 9 CATALINA_HOME の確認方法 (Linux / Mac)
- 10 【Spring】@Autowiredアノテーションとは
最近更新/作成されたページ
- AIの基礎概念:LLM/Transformer/Attention/RAG/エージェント など必須キーワード NEW 2026-05-13 12:19:18
- Diffusion Model とは?画像生成 AI の仕組み・Stable Diffusion NEW 2026-05-13 12:18:15
- マルチモーダル AI とは?GPT-4o・Gemini・Claude の使い方 NEW 2026-05-13 12:18:14
- トークン / コンテキストウィンドウとは?料金・上限・最適化 NEW 2026-05-13 12:18:14
- ファインチューニングとは?LoRA・QLoRA・SFT・RLHF/DPO NEW 2026-05-13 12:18:13
- AIエージェントとは?Tool Use・LangGraph・MCP・実装例 NEW 2026-05-13 12:18:13
- RAG (検索拡張生成) とは?仕組み・実装・LangChain 例 NEW 2026-05-13 12:18:12
- Prompt Engineering とは?技法・Chain-of-Thought・実践例 NEW 2026-05-13 12:18:12
- Attention (注意機構) とは?Q/K/V・Multi-Head の仕組み NEW 2026-05-13 12:18:11
- Embedding (埋め込み) とは?ベクトル化・類似検索・RAG NEW 2026-05-13 12:18:11
- Transformer とは?仕組み・Self-Attention・LLM の基礎 NEW 2026-05-13 12:18:10
- LLM (大規模言語モデル) とは?仕組み・代表モデル・使い方 NEW 2026-05-13 12:18:10
- ディープラーニングとは?CNN・RNN・Transformer・LLM の入門 2026-05-13 10:24:07
- 機械学習とは?教師あり・教師なし・強化学習・代表アルゴリズム 2026-05-13 10:24:07
- AIに必要な数学:線形代数・微積分・確率統計・情報理論・最適化 2026-05-13 10:20:39
コメントを削除してもよろしいでしょうか?