スケール則
モデルのパラメータ数、学習データ量、計算量を増やすほど、モデルの性能が予測可能な形で向上するという経験則。大規模言語モデル(LLM)の研究から導き出されたが、画像生成モデルにも適用されることが確認されている。
発見の経緯
OpenAIなどの研究者が、言語モデルの性能(損失)とモデルサイズ・データ量・計算量の間に、べき乗則(power law)の関係があることを発見した。これにより、「大きなモデルを大量のデータで学習させれば性能が上がる」という方向性が明確になった。
スケールの3要素
- モデルサイズ(パラメータ数):多いほど複雑なパターンを学習できる
- データ量:多様で大量なデータほど汎化性能が上がる
- 計算量(FLOPs):学習に使える計算リソース
画像生成への応用
U-Netアーキテクチャはスケールが難しかったが、TransformerベースのDiTやMMDiTはLLMと同じスケール則が適用できる。この知見が、画像生成の主流アーキテクチャをTransformerに移行させる大きな動機となった。
限界と議論
- スケールだけでは解けない問題がある(推論能力など)
- 効率的なスケール(同じ計算量でより良い性能)への関心が高まっている
- データ品質もスケールと同様に重要であることが指摘されている