創発的能力
モデルのスケール(パラメータ数、学習データ量)が一定の閾値を超えたとき、訓練データにはなかった能力や組み合わせの推論が突然可能になる現象。
LLMにおいて特に顕著に観察される。単純な「次のトークン予測」の積み重ねから、数学的推論、コード生成、類推といった高次の能力が生まれる。
特徴
- 非線形な出現: 小さなモデルでは全く現れず、ある閾値を超えると急に現れる
- 予測困難性: どのスケールでどの能力が創発するか事前に予測しにくい
- 訓練データの範囲を超える: 訓練データに含まれていない組み合わせの推論が可能になる
Chain-of-Thoughtとの関係
Chain-of-Thought(中間推論ステップの生成)は、スケールが上がることで初めて有効になる技術だ。小さなモデルではCoTを適用しても精度が上がらず、むしろ下がることもある。創発的能力の一例と見なせる。
理論的解釈
創発的能力の解釈は研究者間で議論が続いている:
- 量的変化が質的変化を生む: 情報圧縮の質が上がり、より抽象的な表現を獲得する
- 評価指標のアーティファクト: 一部の「創発」は評価指標の非線形性から生じているという指摘もある
- 記号操作と構造的推論の共通基盤: 言語も数学も同じ基盤の上に載っており、スケールによってその基盤が強化される
含意
創発的能力の存在は、LLMの「単なる統計的パターンマッチング」という理解を複雑にする。モデルが何を本当に「理解」しているかという問いに直接関わる。
関連
- LLM - 創発的能力が観察される対象
- Chain-of-Thought - 創発的能力の一例
- Transformer - 創発的能力を示すアーキテクチャ
- スケーラビリティ - スケールと能力の関係