MMDiT

#deep-learning #generative-ai #image-generation

Multimodal Diffusion Transformer の略。2024年以降の画像生成モデル（SD3、FLUX）で採用されているTransformerベースの拡散モデルアーキテクチャ。

従来のアプローチとの違い

従来の拡散モデル（SD1.5、SDXL）はU-Netアーキテクチャを使用し、テキスト条件はCross-Attentionで「注入」していた。テキストは脇役、画像が主役という構図。

MMDiTの核心的なアイデアはテキストと画像を対等に扱うこと。

テキストと画像それぞれに専用の重みを持つ
Attention演算時に両者を結合（Joint Attention）
双方向的な情報交換により、テキスト-画像整合性が大幅に向上

概念的には「2つの独立したTransformerがAttention部分で合流する」イメージ。

採用モデル

モデル	開発元	パラメータ
SD3 / SD3.5	Stability AI	25億〜81億
FLUX.1	Black Forest Labs	120億

技術的特徴

Rectified Flow: DDPMより効率的なサンプリング（経路を直線化）
QK正規化: 大規模モデルの学習安定化
複数テキストエンコーダ: CLIP + T5-XXL の併用

歴史的位置づけ

U-Net（SD1.5, SDXL）
    ↓ Transformerへの移行
DiT（Diffusion Transformer）
    ↓ マルチモーダル拡張
MMDiT（SD3, FLUX）

関連