創発的能力

#llm #ai #機械学習 #認知科学

モデルのスケール（パラメータ数、学習データ量）が一定の閾値を超えたとき、訓練データにはなかった能力や組み合わせの推論が突然可能になる現象。

LLMにおいて特に顕著に観察される。単純な「次のトークン予測」の積み重ねから、数学的推論、コード生成、類推といった高次の能力が生まれる。

特徴

非線形な出現: 小さなモデルでは全く現れず、ある閾値を超えると急に現れる
予測困難性: どのスケールでどの能力が創発するか事前に予測しにくい
訓練データの範囲を超える: 訓練データに含まれていない組み合わせの推論が可能になる

Chain-of-Thoughtとの関係

Chain-of-Thought（中間推論ステップの生成）は、スケールが上がることで初めて有効になる技術だ。小さなモデルではCoTを適用しても精度が上がらず、むしろ下がることもある。創発的能力の一例と見なせる。

理論的解釈

創発的能力の解釈は研究者間で議論が続いている：

量的変化が質的変化を生む: 情報圧縮の質が上がり、より抽象的な表現を獲得する
評価指標のアーティファクト: 一部の「創発」は評価指標の非線形性から生じているという指摘もある
記号操作と構造的推論の共通基盤: 言語も数学も同じ基盤の上に載っており、スケールによってその基盤が強化される

含意

創発的能力の存在は、LLMの「単なる統計的パターンマッチング」という理解を複雑にする。モデルが何を本当に「理解」しているかという問いに直接関わる。

関連

LLM - 創発的能力が観察される対象
Chain-of-Thought - 創発的能力の一例
Transformer - 創発的能力を示すアーキテクチャ
スケーラビリティ - スケールと能力の関係