MMDiT

Multimodal Diffusion Transformer の略。2024年以降の画像生成モデル(SD3、FLUX)で採用されているTransformerベースの拡散モデルアーキテクチャ。

従来のアプローチとの違い

従来の拡散モデル(SD1.5、SDXL)はU-Netアーキテクチャを使用し、テキスト条件はCross-Attentionで「注入」していた。テキストは脇役、画像が主役という構図。

MMDiTの核心的なアイデアはテキストと画像を対等に扱うこと。

概念的には「2つの独立したTransformerがAttention部分で合流する」イメージ。

採用モデル

モデル 開発元 パラメータ
SD3 / SD3.5 Stability AI 25億〜81億
FLUX.1 Black Forest Labs 120億

技術的特徴

歴史的位置づけ

U-Net(SD1.5, SDXL)
    ↓ Transformerへの移行
DiT(Diffusion Transformer)
    ↓ マルチモーダル拡張
MMDiT(SD3, FLUX)

関連