Stable Diffusion 2025年の全体像

#stable-diffusion #generative-ai #deep-learning #image-generation

Stable Diffusion（SD）界隈は2024年に大きな転換期を迎えた。U-NetベースのアーキテクチャからTransformerベースへの移行、新興プレイヤーの台頭、周辺技術の成熟——この記事では、エンジニアが「今何が起きているのか」を俯瞰できるよう、概念構造を整理する。

アーキテクチャの進化：U-Net から MMDiT へ

画像生成AIの中核をなす「ノイズ除去ネットワーク」のアーキテクチャは、大きく3世代に分けられる。

flowchart LR
    subgraph "第1世代（2022-2023）"
        A[U-Net] --> B[Conv層 + Self-Attention]
    end

    subgraph "第2世代（2023）"
        C[DiT] --> D[純粋なTransformer]
    end

    subgraph "第3世代（2024-）"
        E[MMDiT] --> F[マルチモーダルTransformer]
    end

    A -.-> C -.-> E

U-Net時代：SD 1.5, SDXL

初期のStable DiffusionはU-Netアーキテクチャを採用していた。畳み込み層（Conv）でローカルな特徴を捉え、ダウンサンプリング→ボトルネック→アップサンプリングという「砂時計型」の構造でノイズを除去する。途中にSelf-Attentionを挟むことで、画像全体の文脈も考慮できる。

この設計は画像処理において実績があり、比較的少ないパラメータで高品質な生成ができた。SD 1.5（約8.6億パラメータ）、SDXL（約26億パラメータ）がこの世代にあたる。

DiT：Transformerへの橋渡し

2023年、Peebles & XieによるDiT（Diffusion Transformer）の研究で、U-Netを完全にTransformerで置き換える可能性が示された。Vision Transformer（ViT）の成功を拡散モデルに応用した形だ。

Transformerの利点はスケーラビリティ。パラメータを増やすほど性能が向上する傾向があり、LLMで証明された「スケール則」が画像生成にも適用できる。

MMDiT：SD3, FLUX の心臓部

2024年にリリースされたSD3とFLUXは、MMDiT（Multimodal Diffusion Transformer）という新しいアーキテクチャを採用している。

MMDiTの核心的なアイデアはテキストと画像を対等に扱うこと。

flowchart TB
    subgraph "従来のアプローチ"
        T1[テキスト埋め込み] --> CA[Cross-Attention]
        I1[画像潜在表現] --> CA
        CA --> O1[出力]
    end

    subgraph "MMDiT"
        T2[テキスト埋め込み] --> TW[テキスト用重み]
        I2[画像潜在表現] --> IW[画像用重み]
        TW --> JA[Joint Attention]
        IW --> JA
        JA --> T3[テキスト出力]
        JA --> I3[画像出力]
    end

従来はテキストを「条件」として画像に注入していたが、MMDiTではテキストと画像それぞれに専用の重みを持ち、Attention演算時に両者を結合（Joint Attention）する。この双方向的な情報交換により、テキストと画像の整合性が大幅に向上した。

技術的な特徴：

Rectified Flow: 従来のDDPMより効率的なサンプリング経路
QK正規化: 大規模モデルの学習安定化
複数テキストエンコーダ: CLIP + T5-XXL の併用（FLUX）

主要モデルの勢力図

2025年初頭の時点で、オープンソース画像生成の主要プレイヤーは3つある。

SDXL：成熟したエコシステム

Stability AIが2023年にリリースしたSDXLは、U-Net世代の集大成と言える。

パラメータ: 約26億
解像度: 1024×1024がネイティブ
エコシステム: LoRA、ControlNet、各種ツールが最も充実

「枯れた技術」ゆえの安定感がある。新しいLoRAやControlNetがまずSDXL向けに出ることも多く、実用面ではまだ現役だ。

SD3 / SD3.5：Stability AIの新世代

2024年6月にSD3、10月にSD3.5がリリースされた。MMDiTアーキテクチャを採用し、テキストレンダリング能力が大幅に向上。

バリアント	パラメータ	特徴
SD 3.5 Large	81億	最高品質
SD 3.5 Medium	25億	消費者GPU向け（〜10GB VRAM）
SD 3.5 Large Turbo	81億	4-8ステップ高速生成

ただし、コミュニティでの評価は分かれている。「期待ほどではなかった」という声もあり、後述するFLUXに注目が集まった。

FLUX：元SD開発者の「本命」

Black Forest Labs（元Stability AI研究者が設立）が2024年8月にリリース。「SD3が目指したものを実現した」と評されることも。

パラメータ: 120億（FLUX.1 Dev）
強み: テキストレンダリング、手の描画、プロンプト追従性
弱み: 計算コスト（SDXLの約4倍の生成時間）

バリアント	ライセンス	用途
Schnell	Apache 2.0	高速・軽量
Dev	非商用	高品質・実験用
Pro	商用API	プロダクション

2025年11月にはFLUX.2も発表され、写実性とタイポグラフィがさらに向上している。

選択の判断軸

高品質を追求 → FLUX Dev/Pro
エコシステム重視 → SDXL
公式サポート重視 → SD 3.5
リアルタイム性重視 → SDXL Turbo / FLUX Schnell

周辺技術の関係性

ベースモデルだけでは画像生成の「個性」や「制御」が難しい。そこで登場するのがLoRA、ControlNetなどの周辺技術だ。

flowchart TB
    subgraph "ベースモデル"
        BASE[SDXL / SD3 / FLUX]
    end

    subgraph "味付け（ファインチューニング）"
        LORA[LoRA / LyCORIS]
        LORA --> |スタイル| STYLE[画風・タッチ]
        LORA --> |キャラクター| CHAR[特定人物・キャラ]
        LORA --> |概念| CONCEPT[特定の概念]
    end

    subgraph "制御"
        CN[ControlNet]
        CN --> |構図| POSE[OpenPose]
        CN --> |輪郭| CANNY[Canny]
        CN --> |深度| DEPTH[Depth]
        CN --> |etc| ETC[Segment, Normal...]
    end

    subgraph "高速化"
        FAST[LCM / Turbo]
    end

    BASE --> LORA
    BASE --> CN
    BASE --> FAST

    LORA -.-> |併用可| CN

LoRA / LyCORIS：モデルを「味付け」する

LoRA（Low-Rank Adaptation）は、巨大なベースモデルを効率的にファインチューニングする手法。モデル全体を再学習するのではなく、低ランク行列の差分だけを学習する。

LyCORISファミリーはLoRAの発展形：

手法	特徴	向いている用途
LoRA	標準的、互換性◎	汎用
LoCon	Conv層も学習	キャラクター
LoHa	Hadamard積で汎化	スタイル
DoRA	magnitude/direction分解	高品質（学習時間2倍）

最近注目されているのはDoRA（Weight-Decomposed Low-Rank Adaptation）。Nvidiaが提案した手法で、フルファインチューニングに近い品質を低コストで実現できる。

ControlNet：構図を「制御」する

ControlNetは、生成画像の構図や姿勢を明示的に制御する技術。

従来は制御タイプごとに別モデルが必要だったが、2024年に登場したControlNet Unionは1つのモデルで10種類以上の制御に対応。Canny、OpenPose、Depth、Segmentなどを統合し、複数条件の同時適用も可能になった。

InstantIDも注目技術の一つ。1枚の顔画像から、その人物のIDを保持したまま様々な画像を生成できる。ControlNetとIP-Adapterのハイブリッドアーキテクチャを採用している。

高速化手法：LCM, Turbo系

通常の拡散モデルは20-50ステップの反復が必要だが、以下の手法で大幅に削減できる。

手法	ステップ数	特徴
LCM（Latent Consistency Model）	2-8	既存モデルにアダプタとして適用可
SDXL Turbo	1-4	蒸留済み、リアルタイム生成の先駆け
SDXL Lightning	4-8	品質と速度のバランス

これらはリアルタイムインタラクションや大量生成のワークフローで重宝される。

概念構造を掴む意義

SD界隈は変化が速い。毎月のように新しいモデルや手法が登場し、追いかけ続けるのは困難だ。

しかし、概念の構造——アーキテクチャの進化軸、ベースモデルと周辺技術の関係、各技術が解決しようとしている問題——を掴んでおけば、新しい情報が出てきたときに「これは既存のどこに位置づけられるか」が判断できる。

例えば「新しいLoRA手法が出た」と聞けば、それがLyCORISファミリーの延長なのか、まったく別のアプローチなのかを考える土台ができる。「新しいベースモデルが出た」と聞けば、U-Net系なのかMMDiT系なのか、どのエコシステムと互換性があるのかを確認する視点が持てる。

技術の詳細は変わっても、構造的な理解は長持ちする。

抽出された概念

この記事から以下の一般概念をnotesに抽出した。

拡散モデル - ノイズ除去により画像を生成する深層学習モデルの総論
スケール則 - パラメータ・データ・計算量の増加で性能が向上する経験則
Rectified Flow - サンプリング経路を直線化する効率的な拡散モデル手法

既存ノート（LoRA、ControlNet、U-Net、DiT、MMDiT）も参照。