MMDiT
Multimodal Diffusion Transformer の略。2024年以降の画像生成モデル(SD3、FLUX)で採用されているTransformerベースの拡散モデルアーキテクチャ。
従来のアプローチとの違い
従来の拡散モデル(SD1.5、SDXL)はU-Netアーキテクチャを使用し、テキスト条件はCross-Attentionで「注入」していた。テキストは脇役、画像が主役という構図。
MMDiTの核心的なアイデアはテキストと画像を対等に扱うこと。
- テキストと画像それぞれに専用の重みを持つ
- Attention演算時に両者を結合(Joint Attention)
- 双方向的な情報交換により、テキスト-画像整合性が大幅に向上
概念的には「2つの独立したTransformerがAttention部分で合流する」イメージ。
採用モデル
| モデル | 開発元 | パラメータ |
|---|---|---|
| SD3 / SD3.5 | Stability AI | 25億〜81億 |
| FLUX.1 | Black Forest Labs | 120億 |
技術的特徴
- Rectified Flow: DDPMより効率的なサンプリング(経路を直線化)
- QK正規化: 大規模モデルの学習安定化
- 複数テキストエンコーダ: CLIP + T5-XXL の併用
歴史的位置づけ
U-Net(SD1.5, SDXL)
↓ Transformerへの移行
DiT(Diffusion Transformer)
↓ マルチモーダル拡張
MMDiT(SD3, FLUX)