Stable Diffusion とは？OSS 画像生成 AI の使い方・モデル世代

▶

本稿は Stable Diffusion (ステーブルディフュージョン) に関する記事です。

Stable Diffusion とは？

Stable Diffusion は、Stability AI を中心に開発・公開されたオープンソースの画像生成 AIです。「潜在拡散モデル (Latent Diffusion Model)」と呼ばれる方式を採用し、テキスト（プロンプト）から画像を生成します。

最大の特徴はモデルの重みが公開されていることです。Midjourney や DALL·E が SaaS でしか使えないのに対し、Stable Diffusion はローカル GPU 上で実行でき、商用 SaaS に依存しない画像生成パイプラインを構築できます。

方法	特徴
AUTOMATIC1111 WebUI	最も普及するローカル UI。プラグイン豊富
ComfyUI	ノードベースの UI。ワークフロー再現性が高い
Forge / Fooocus	軽量・高速。Fooocus は初心者向け
Hugging Face Diffusers (Python)	ライブラリとしてアプリ組込・自動化
Stability AI 公式 API / Web	SaaS で利用（DreamStudio など）
クラウド GPU	Replicate、RunPod、Lambda Labs 等で従量利用

項目	目安
GPU	NVIDIA RTX 3060 (12GB) 以上推奨。SDXL は VRAM 8GB+ 必須クラス
VRAM	SD1.5: 6GB / SDXL: 8〜12GB / SD3: 12GB+
RAM	16GB 以上
OS	Windows / Linux / macOS（Apple Silicon でも動作可、速度は劣る）
ストレージ	モデル 1 個 2〜7GB。複数モデル想定で 100GB+ 確保

技術	用途
LoRA	軽量ファインチューニング。特定キャラ・画風を後付け
ControlNet	線画・ポーズ・深度マップで構図制御
IP-Adapter	参照画像の「画風」を反映
img2img	既存画像から変換
inpaint / outpaint	部分修正・拡張
VAE	潜在空間と画像の変換器。差し替えで色味が変わる
Textual Inversion / Embedding	新しい概念を埋め込みに追加
Diffusers ライブラリ	Hugging Face の Python API

モデルごとのライセンス: SD 1.5 / SDXL / SD3 は CreativeML Open RAIL や Stability AI Community License 等。商用条件・収益規模に応じた制約を要確認
派生モデル (Civitai 等) は別のライセンスのことが多い。配布元の規約を必ず確認
著作権・肖像権: 既存キャラクター・実在人物を再現するモデル/LoRA は権利侵害になりうる
NSFW・違法生成: 児童画像等の違法コンテンツ生成は厳禁。配布元・国の法令に従う
透かし / 出所表示: 生成画像の出所表示が義務化される動き（EU AI Act 等）
セキュリティ: 外部から拾った .ckpt 形式は任意コード実行可能性あり。safetensors 形式を選ぶ
業務利用ではAdobe Firefly 等の商用安全モデルとのすみ分けを検討