ControlNet

画像生成モデルの出力を明示的に制御するための技術。構図、姿勢、輪郭などの条件を指定して、その制約に従った画像を生成できる。

仕組み

ベースの拡散モデル(SDXL、FLUXなど)に対して、追加のエンコーダネットワークを接続する。このエンコーダが制御信号(エッジ画像、姿勢情報など)を受け取り、生成プロセスに介入する。

制御画像(Canny、Poseなど)
    ↓
ControlNetエンコーダ → 制御信号
                          ↓
テキストプロンプト → ベースモデル → 生成画像

主な制御タイプ

タイプ 入力 制御内容
Canny エッジ画像 輪郭・形状
OpenPose 骨格検出結果 人物の姿勢
Depth 深度マップ 奥行き・立体感
Segment セグメンテーション 領域配置
LineArt 線画 線のスタイル

ControlNet Union(2024)

従来は制御タイプごとに別のモデルが必要だったが、ControlNet Unionは1つのモデルで10種類以上の制御に対応。

InstantID

顔画像1枚から、その人物のIDを保持したまま様々な画像を生成する技術。ControlNetとIP-Adapterのハイブリッドアーキテクチャを採用。

「学習なしで顔の特徴を転送できる」点が革新的。

関連