スケール則

モデルのパラメータ数、学習データ量、計算量を増やすほど、モデルの性能が予測可能な形で向上するという経験則。大規模言語モデル(LLM)の研究から導き出されたが、画像生成モデルにも適用されることが確認されている。

発見の経緯

OpenAIなどの研究者が、言語モデルの性能(損失)とモデルサイズ・データ量・計算量の間に、べき乗則(power law)の関係があることを発見した。これにより、「大きなモデルを大量のデータで学習させれば性能が上がる」という方向性が明確になった。

スケールの3要素

画像生成への応用

U-Netアーキテクチャはスケールが難しかったが、TransformerベースのDiTMMDiTはLLMと同じスケール則が適用できる。この知見が、画像生成の主流アーキテクチャをTransformerに移行させる大きな動機となった。

限界と議論

関連