4.

画像・動画・音声生成AIとは?Stable Diffusion・Midjourney 等の主要サービス

編集

本稿は 画像・動画・音声生成 AI のサブカテゴリ ハブです。テキストや画像から新しいメディアを生成する AI サービス・モデルをまとめます。

子ページから個別サービスを選択してください。

本ページの子ページ

※ 今後、DALL·E / Sora / Veo / Runway / ElevenLabs / Suno / FLUX 等を順次拡充予定。

生成 AI のメディア領域マップ

領域代表サービス・モデル主な用途
画像生成Stable DiffusionMidjourney、DALL·E、Adobe Firefly、Imagen、FLUXイラスト・コンセプトアート・写真風画像
動画生成Sora、Runway Gen-3、Veo、Kling、Luma Dream Machineテキスト / 画像 → 短尺動画
音声合成 (TTS)ElevenLabs、OpenAI Voice、Google TTS、Azure Speechナレーション・キャラクター音声
音声認識 (STT)Whisper、Deepgram、AssemblyAI、Google STT文字起こし・字幕生成
音楽生成Suno、Udio、Riffusion歌詞 → 楽曲、BGM 生成
3D / モーションLuma AI、Tripo、CSM、Meshyテキスト → 3D モデル
画像編集 / アップスケールAdobe Firefly Generative Fill、Topaz、Magnific部分修正・高解像度化
アバター / リップシンクHeyGen、Synthesia、D-ID動画アバター・多言語ダビング

生成モデルの主要技術

技術概要
Diffusion Modelノイズ除去を学習。画像・動画生成の現在の主流
Latent Diffusion潜在空間で拡散することで計算量を削減。Stable Diffusion の基礎
Transformerテキスト → メディアの条件付け、近年は画像/動画でも採用
VAE潜在空間と元データの変換器
GAN2 つのネットワークが競うことで生成。旧世代の主流
ControlNet / IP-Adapter構図・画風の制御を後付け
LoRA / Textual Inversion軽量ファインチューニングで特定スタイルを追加
Flow Matching新しい拡散系学習アプローチ(FLUX 等)

画像生成サービスの比較

項目Stable DiffusionMidjourneyDALL·EAdobe Firefly
提供形態OSS / ローカル / APISaaS (Discord/Web)SaaS (ChatGPT 経由)SaaS
カスタマイズ非常に高い (LoRA等)低い低い低い
商用利用モデル次第で可有料プランで可OpenAI 利用規約に従う商用配慮の学習データ
料金無料 (GPU 自前) or 従量月額ChatGPT プランAdobe プラン
画風多様 (派生モデル多数)アート寄り・統一感あり指示忠実度高商用安全 + Adobe 統合

動画生成の現状

  • Sora(OpenAI)— 高品質長尺。ChatGPT Plus / Pro で提供
  • Veo(Google DeepMind)— Gemini 経由・Workspace 統合
  • Runway Gen-3 — 映像制作向け。編集ツール統合
  • Kling(Kuaishou)— 高品質モデル
  • Luma Dream Machine — テキスト・画像 → 動画
  • 2025〜2026 年は長尺・物理整合性が急速に向上中

音声・音楽の主要サービス

  • ElevenLabs — 自然な合成音声・声のクローン。多言語対応
  • OpenAI Voice — ChatGPT 内蔵の音声会話
  • Whisper — OpenAI の OSS 文字起こしモデル(ローカル実行可)
  • Suno / Udio — 歌詞・ジャンル指定で楽曲生成
  • NotebookLM — Google。資料からポッドキャスト風音声を生成

業務利用での共通注意点

  • 著作権・肖像権: 実在人物・既存キャラクターを意図的に再現すると権利侵害になりうる
  • 学習データの法的議論: 各国で訴訟・規制が進行中。商用利用ではリスク評価を
  • 商用利用条件: モデル/サービスごとのライセンス・規約を必ず確認
  • 透かし / 出所表示: EU AI Act など、生成物の表示義務が広がる
  • 違法・有害コンテンツ: 児童画像、ディープフェイク悪用、フェイクニュース等は厳禁
  • 機密情報: 顔写真・社内資料を無料サービスに入れない
  • ストレージ規約: 多くの SaaS は生成物がサーバ側に保存される(公開設定確認)
  • セキュリティ: 外部から拾った .ckpt モデルは任意コード実行のリスクあり。safetensors 形式を選ぶ

関連

編集
Post Share
子ページ
  1. Stable Diffusion
  2. Midjourney
同階層のページ
  1. 汎用チャットAI
  2. AI検索
  3. コーディング支援AI
  4. 画像・動画・音声生成AI
  5. AIベンダー

最近更新/作成されたページ