ControlNet
画像生成モデルの出力を明示的に制御するための技術。構図、姿勢、輪郭などの条件を指定して、その制約に従った画像を生成できる。
仕組み
ベースの拡散モデル(SDXL、FLUXなど)に対して、追加のエンコーダネットワークを接続する。このエンコーダが制御信号(エッジ画像、姿勢情報など)を受け取り、生成プロセスに介入する。
制御画像(Canny、Poseなど)
↓
ControlNetエンコーダ → 制御信号
↓
テキストプロンプト → ベースモデル → 生成画像
主な制御タイプ
| タイプ | 入力 | 制御内容 |
|---|---|---|
| Canny | エッジ画像 | 輪郭・形状 |
| OpenPose | 骨格検出結果 | 人物の姿勢 |
| Depth | 深度マップ | 奥行き・立体感 |
| Segment | セグメンテーション | 領域配置 |
| LineArt | 線画 | 線のスタイル |
ControlNet Union(2024)
従来は制御タイプごとに別のモデルが必要だったが、ControlNet Unionは1つのモデルで10種類以上の制御に対応。
- パラメータ数はほぼ変わらず
- 複数条件の同時適用も可能
- Control Type IDで制御タイプを切り替え
InstantID
顔画像1枚から、その人物のIDを保持したまま様々な画像を生成する技術。ControlNetとIP-Adapterのハイブリッドアーキテクチャを採用。
「学習なしで顔の特徴を転送できる」点が革新的。