画像・動画・音声生成AIとは？Stable Diffusion・Midjourney 等の主要サービス

▶

この記事の要点

画像・動画・音声生成 AI は、テキストや画像から新しいメディアを生成するサービス・モデルの総称。
メディア領域は「画像生成 / 動画生成 / 音声合成(TTS) / 音声認識(STT) / 音楽生成 / 3D / 画像編集・アップスケール / アバター」に大別される。
画像生成の代表は Stable Diffusion（OSS・高カスタマイズ）と Midjourney（SaaS・アート品質）。ほかに DALL·E、Adobe Firefly、Imagen、FLUX。
主要技術は Diffusion Model / Latent Diffusion が現在の主流。ControlNet・LoRA で制御やスタイル追加を行う。
動画は Sora / Veo / Runway / Kling / Luma、音声・音楽は ElevenLabs / Whisper / Suno / Udio が主要。
業務利用では著作権・肖像権・学習データの法的議論・商用利用条件・透かし義務に注意。外部モデルは .ckpt より safetensors 形式を選ぶ。

本稿は 画像・動画・音声生成 AI のサブカテゴリハブです。テキストや画像から新しいメディアを生成する AI サービス・モデルをまとめます。

子ページから個別サービスを選択してください。

本ページの子ページ

※ 今後、DALL·E / Sora / Veo / Runway / ElevenLabs / Suno / FLUX 等を順次拡充予定。

領域	代表サービス・モデル	主な用途
画像生成	Stable Diffusion、Midjourney、DALL·E、Adobe Firefly、Imagen、FLUX	イラスト・コンセプトアート・写真風画像
動画生成	Sora、Runway Gen-3、Veo、Kling、Luma Dream Machine	テキスト / 画像 → 短尺動画
音声合成 (TTS)	ElevenLabs、OpenAI Voice、Google TTS、Azure Speech	ナレーション・キャラクター音声
音声認識 (STT)	Whisper、Deepgram、AssemblyAI、Google STT	文字起こし・字幕生成
音楽生成	Suno、Udio、Riffusion	歌詞 → 楽曲、BGM 生成
3D / モーション	Luma AI、Tripo、CSM、Meshy	テキスト → 3D モデル
画像編集 / アップスケール	Adobe Firefly Generative Fill、Topaz、Magnific	部分修正・高解像度化
アバター / リップシンク	HeyGen、Synthesia、D-ID	動画アバター・多言語ダビング

技術	概要
Diffusion Model	ノイズ除去を学習。画像・動画生成の現在の主流
Latent Diffusion	潜在空間で拡散することで計算量を削減。Stable Diffusion の基礎
Transformer	テキスト → メディアの条件付け、近年は画像/動画でも採用
VAE	潜在空間と元データの変換器
GAN	2 つのネットワークが競うことで生成。旧世代の主流
ControlNet / IP-Adapter	構図・画風の制御を後付け
LoRA / Textual Inversion	軽量ファインチューニングで特定スタイルを追加
Flow Matching	新しい拡散系学習アプローチ（FLUX 等）

項目	Stable Diffusion	Midjourney	DALL·E	Adobe Firefly
提供形態	OSS / ローカル / API	SaaS (Discord/Web)	SaaS (ChatGPT 経由)	SaaS
カスタマイズ	非常に高い (LoRA等)	低い	低い	低い
商用利用	モデル次第で可	有料プランで可	OpenAI 利用規約に従う	商用配慮の学習データ
料金	無料 (GPU 自前) or 従量	月額	ChatGPT プラン	Adobe プラン
画風	多様 (派生モデル多数)	アート寄り・統一感あり	指示忠実度高	商用安全 + Adobe 統合