ControlNet

画像生成モデルの出力を明示的に制御するための技術。構図、姿勢、輪郭などの条件を指定して、その制約に従った画像を生成できる。

仕組み

ベースの拡散モデル（SDXL、FLUXなど）に対して、追加のエンコーダネットワークを接続する。このエンコーダが制御信号（エッジ画像、姿勢情報など）を受け取り、生成プロセスに介入する。

制御画像（Canny、Poseなど）
    ↓
ControlNetエンコーダ → 制御信号
                          ↓
テキストプロンプト → ベースモデル → 生成画像

従来は制御タイプごとに別のモデルが必要だったが、ControlNet Unionは1つのモデルで10種類以上の制御に対応。

顔画像1枚から、その人物のIDを保持したまま様々な画像を生成する技術。ControlNetとIP-Adapterのハイブリッドアーキテクチャを採用。

「学習なしで顔の特徴を転送できる」点が革新的。