創発的能力

モデルのスケール(パラメータ数、学習データ量)が一定の閾値を超えたとき、訓練データにはなかった能力や組み合わせの推論が突然可能になる現象。

LLMにおいて特に顕著に観察される。単純な「次のトークン予測」の積み重ねから、数学的推論、コード生成、類推といった高次の能力が生まれる。

特徴

Chain-of-Thoughtとの関係

Chain-of-Thought(中間推論ステップの生成)は、スケールが上がることで初めて有効になる技術だ。小さなモデルではCoTを適用しても精度が上がらず、むしろ下がることもある。創発的能力の一例と見なせる。

理論的解釈

創発的能力の解釈は研究者間で議論が続いている:

含意

創発的能力の存在は、LLMの「単なる統計的パターンマッチング」という理解を複雑にする。モデルが何を本当に「理解」しているかという問いに直接関わる。

関連