スケール則

#deep-learning #llm #generative-ai

モデルのパラメータ数、学習データ量、計算量を増やすほど、モデルの性能が予測可能な形で向上するという経験則。大規模言語モデル（LLM）の研究から導き出されたが、画像生成モデルにも適用されることが確認されている。

発見の経緯

OpenAIなどの研究者が、言語モデルの性能（損失）とモデルサイズ・データ量・計算量の間に、べき乗則（power law）の関係があることを発見した。これにより、「大きなモデルを大量のデータで学習させれば性能が上がる」という方向性が明確になった。

スケールの3要素

モデルサイズ（パラメータ数）：多いほど複雑なパターンを学習できる
データ量：多様で大量なデータほど汎化性能が上がる
計算量（FLOPs）：学習に使える計算リソース

画像生成への応用

U-Netアーキテクチャはスケールが難しかったが、TransformerベースのDiTやMMDiTはLLMと同じスケール則が適用できる。この知見が、画像生成の主流アーキテクチャをTransformerに移行させる大きな動機となった。

限界と議論

スケールだけでは解けない問題がある（推論能力など）
効率的なスケール（同じ計算量でより良い性能）への関心が高まっている
データ品質もスケールと同様に重要であることが指摘されている

関連