速 報2026.05.27 09:31
大規模言語モデル(LLM)が自身の内部状態を検出・報告できるとする研究に対し、研究者らは「その結論は時期尚早」と主張する。人間のメタ認知(metacognition)研究の知見をもとに、真の内省とパターンマッチングを区別する必要があると指摘している。
大規模言語モデル(LLM)は、自身の内部状態を検出し、それを報告することができるのだろうか。複数の研究がこの問いに対して肯定的な答えを示してきた。しかし本研究の著者らは、人間のメタ認知研究から得られた知見をもとに、その結論は時期尚早である可能性があると論じる。真の内省(introspection)であるとを確認するためには、表面的な手がかりに基づくパターンマッチングと、本物の内省を区別する必要があるからだ。さらに、行動的な証拠のみでは、強い内省能力の主張を裏付けるには本質的に不十分であると主張する。
こうした観点から、著者らは最近提案された2つの評価パラダイムを再検討した。第一のパラダイムでは、モデルが自身の内部状態に何らかの改ざんが加えられたかどうかを検出することが求められる。しかし検証の結果、モデルは内部状態への介入と入力データの操作を確実に区別できないことが明らかになった。これは、先行研究における成功が、内部状態の変化を検出する真の内省能力によるものではなく、より一般的な異常検知能力を反映している可能性を示唆している。
