速 報2026.04.15 04:30
大規模言語モデル(LLM)において、認知エージェントのアイデンティティ情報が意味的に類似した表現にクラスター化される現象を確認した。Llama 3.1とGemma 2での実験により、パラフレーズされたアイデンティティは統計的に有意にアトラクター的な動作を示すことが明らかになった。
大規模言語モデルは意味的に関連するプロンプトを類似した内部表現にマッピングする。この現象はアトラクター的ダイナミクス(attractor-like dynamics)として解釈できる。本研究では、恒続的認知エージェントのアイデンティティ文書(cognitive_core)が同様のアトラクター的振る舞いを示すかどうかを検証した。
Llama 3.1 8B Instructを対象とした制御実験を実施した。元のcognitive_coreを条件A、7つのパラフレーズを条件B、7つの構造的に対応した制御群を条件Cとして比較した。レイヤー8、16、24での平均プーリング状態(mean-pooled states)を分析した結果、パラフレーズはコントロール群よりも緊密なクラスターに収束することが判明した(Cohen's d > 1.88、p < 10^{-27}、ボンフェローニ補正済み)。
Gemma 2 9Bでの再現実験により、このアーキテクチャ間の汎化可能性が確認された。アブレーション研究から、この効果は主に構造的特性ではなく意味的特性に由来し、アトラクター領域に到達するには構造的完全性が必要であることが示唆された。探索的実験では、科学的
(以降、本文が途中で終了しているためここまで)
