ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
本稿は 画像・動画・音声生成 AI のサブカテゴリ ハブです。テキストや画像から新しいメディアを生成する AI サービス・モデルをまとめます。
子ページから個別サービスを選択してください。
本ページの子ページ
- Stable Diffusion — オープンソースの画像生成モデル
- Midjourney — SaaS 型のアート品質画像生成
※ 今後、DALL·E / Sora / Veo / Runway / ElevenLabs / Suno / FLUX 等を順次拡充予定。
生成 AI のメディア領域マップ
| 領域 | 代表サービス・モデル | 主な用途 |
|---|---|---|
| 画像生成 | Stable Diffusion、Midjourney、DALL·E、Adobe Firefly、Imagen、FLUX | イラスト・コンセプトアート・写真風画像 |
| 動画生成 | Sora、Runway Gen-3、Veo、Kling、Luma Dream Machine | テキスト / 画像 → 短尺動画 |
| 音声合成 (TTS) | ElevenLabs、OpenAI Voice、Google TTS、Azure Speech | ナレーション・キャラクター音声 |
| 音声認識 (STT) | Whisper、Deepgram、AssemblyAI、Google STT | 文字起こし・字幕生成 |
| 音楽生成 | Suno、Udio、Riffusion | 歌詞 → 楽曲、BGM 生成 |
| 3D / モーション | Luma AI、Tripo、CSM、Meshy | テキスト → 3D モデル |
| 画像編集 / アップスケール | Adobe Firefly Generative Fill、Topaz、Magnific | 部分修正・高解像度化 |
| アバター / リップシンク | HeyGen、Synthesia、D-ID | 動画アバター・多言語ダビング |
生成モデルの主要技術
| 技術 | 概要 |
|---|---|
| Diffusion Model | ノイズ除去を学習。画像・動画生成の現在の主流 |
| Latent Diffusion | 潜在空間で拡散することで計算量を削減。Stable Diffusion の基礎 |
| Transformer | テキスト → メディアの条件付け、近年は画像/動画でも採用 |
| VAE | 潜在空間と元データの変換器 |
| GAN | 2 つのネットワークが競うことで生成。旧世代の主流 |
| ControlNet / IP-Adapter | 構図・画風の制御を後付け |
| LoRA / Textual Inversion | 軽量ファインチューニングで特定スタイルを追加 |
| Flow Matching | 新しい拡散系学習アプローチ(FLUX 等) |
画像生成サービスの比較
| 項目 | Stable Diffusion | Midjourney | DALL·E | Adobe Firefly |
|---|---|---|---|---|
| 提供形態 | OSS / ローカル / API | SaaS (Discord/Web) | SaaS (ChatGPT 経由) | SaaS |
| カスタマイズ | 非常に高い (LoRA等) | 低い | 低い | 低い |
| 商用利用 | モデル次第で可 | 有料プランで可 | OpenAI 利用規約に従う | 商用配慮の学習データ |
| 料金 | 無料 (GPU 自前) or 従量 | 月額 | ChatGPT プラン | Adobe プラン |
| 画風 | 多様 (派生モデル多数) | アート寄り・統一感あり | 指示忠実度高 | 商用安全 + Adobe 統合 |
動画生成の現状
- Sora(OpenAI)— 高品質長尺。ChatGPT Plus / Pro で提供
- Veo(Google DeepMind)— Gemini 経由・Workspace 統合
- Runway Gen-3 — 映像制作向け。編集ツール統合
- Kling(Kuaishou)— 高品質モデル
- Luma Dream Machine — テキスト・画像 → 動画
- 2025〜2026 年は長尺・物理整合性が急速に向上中
音声・音楽の主要サービス
- ElevenLabs — 自然な合成音声・声のクローン。多言語対応
- OpenAI Voice — ChatGPT 内蔵の音声会話
- Whisper — OpenAI の OSS 文字起こしモデル(ローカル実行可)
- Suno / Udio — 歌詞・ジャンル指定で楽曲生成
- NotebookLM — Google。資料からポッドキャスト風音声を生成
業務利用での共通注意点
- 著作権・肖像権: 実在人物・既存キャラクターを意図的に再現すると権利侵害になりうる
- 学習データの法的議論: 各国で訴訟・規制が進行中。商用利用ではリスク評価を
- 商用利用条件: モデル/サービスごとのライセンス・規約を必ず確認
- 透かし / 出所表示: EU AI Act など、生成物の表示義務が広がる
- 違法・有害コンテンツ: 児童画像、ディープフェイク悪用、フェイクニュース等は厳禁
- 機密情報: 顔写真・社内資料を無料サービスに入れない
- ストレージ規約: 多くの SaaS は生成物がサーバ側に保存される(公開設定確認)
- セキュリティ: 外部から拾った
.ckptモデルは任意コード実行のリスクあり。safetensors 形式を選ぶ
関連
ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
同階層のページ
- 汎用チャットAI
- AI検索
- コーディング支援AI
- 画像・動画・音声生成AI
- AIベンダー
人気ページ
- 1 Eclipseで「サーバーに追加または除去できるリソースがありません。」の原因と対処法
- 2 tomcat の起動 / 停止ログと catalina.log・catalina.out の違い
- 3 JavaScript base URL 取得方法|window.location.origin と SSR/Node.js 対応
- 4 YouTube Data API v3 エラー一覧|403/400/404 の主要原因と切り分け
- 5 Spring Frameworkのアノテーション一覧
- 6 Laravel エラー一覧|500/Blade/DB 接続/ルーティングの代表エラー
- 7 3Dグラフィックスとは|モデリング/レンダリング/主要ソフトウェア (Blender / Maya)
- 8 【Spring】@Valueアノテーションとは
- 9 CATALINA_HOME の確認方法 (Linux / Mac)
- 10 【Spring】@Autowiredアノテーションとは
最近更新/作成されたページ
- Laravel キャッシュクリア完全ガイド(cache:clear / config:clear / 2026-05-18 07:42:07
- プロジェクトの作成と削除 2026-05-18 07:42:07
- インストール直後にNetbeansが反応しない 2026-05-18 07:42:07
- 動画やチャンネルの検索 2026-05-18 07:42:07
- APIキー取得方法 2026-05-18 07:42:07
- チャンネル情報の取得 2026-05-18 07:42:07
- API 入門 — Web API(REST / GraphQL / gRPC / 2026-05-18 07:42:07
- インストール(eclipseプラグイン) 2026-05-18 07:42:07
- Laravel「Dotenv values containing spaces must be surrounded 2026-05-18 07:42:07
- エラー一覧 2026-05-18 07:42:07
- curl: (51) SSL: certificate subject name '~' does not match 2026-05-18 07:42:07
- インストール方法(Windows版) 2026-05-18 07:42:07
- JSONから配列に変換 2026-05-18 07:42:07
- 処理を一定時間待つ 2026-05-18 07:42:07
- A non well formed numeric value encountered 2026-05-18 07:42:07
コメントを削除してもよろしいでしょうか?