拡散モデル
ノイズを段階的に除去することで画像などを生成する深層学習モデルの一種。テキストや他の条件から高品質なコンテンツを生成できる。
基本原理
ランダムなノイズから始め、訓練済みのネットワークが繰り返しノイズを除去することで、最終的に意味のある画像を生成する。この「ノイズ除去」を担うネットワークのアーキテクチャが、モデルの品質と性能を決定する。
アーキテクチャの世代
第1世代:U-Netベース
畳み込み層(Conv)でローカルな特徴を捉え、ダウンサンプリング→ボトルネック→アップサンプリングという「砂時計型」の構造でノイズを除去する。画像処理の実績があり、比較的少ないパラメータで高品質な生成が可能。Stable Diffusion 1.5、SDXLがこの世代にあたる。
第2世代:DiTベース
U-Netを完全にTransformerで置き換えたアーキテクチャ。Transformerのスケーラビリティ(パラメータを増やすほど性能が向上する特性)を画像生成に応用する。
第3世代:MMDiTベース
テキストと画像を対等に扱うマルチモーダルTransformerアーキテクチャ。テキストと画像それぞれに専用の重みを持ち、Joint Attentionで双方向に情報交換する。SD3、FLUXがこの世代。
スケール則との関係
スケール則がLLM同様に画像生成モデルにも適用されることが確認され、より大規模なモデルへの移行が加速した。これがTransformerアーキテクチャへの移行を後押しした主要因の一つ。
サンプリング効率
ノイズ除去のステップ数が生成速度のボトルネックとなる。Rectified Flowはサンプリング経路を直線化することで効率を向上させる手法。LCMやTurbo系の蒸留技術も高速化に使われる。
周辺技術との関係
ベースモデルだけでは「個性」や「制御」が難しいため、LoRA(スタイル・概念の追加学習)やControlNet(構図・姿勢の制御)などの周辺技術と組み合わせて使用される。