LLM研究AIセーフティ

大規模言語モデルの確信度キャリブレーション：過信傾向と難易度効果の実証研究

速報2026.05.26 13:34

大規模言語モデル（LLM）の確信度キャリブレーションを多様なタスクで調査した結果、LLMは人間と同様に自身の正答を過信する傾向があることが判明した。ただしこの傾向は難易度によって大きく左右され、難問では過信が顕著である一方、易問では逆に過小評価が生じる。

大規模言語モデル（LLM）の確信度キャリブレーション（calibration）を多様なタスクにわたって調査した。

事前登録済み研究の結果、現行のLLM群は人間と同様に、自身が正しいと過度に確信する傾向があることが示された。すなわち、平均的に確信度が正答率を上回っている。

ただし重要なことに、この傾向は強力な「難易度効果（hard-easy effect）」によって調整される。難易度の高いテストでは過信が最も顕著に現れる一方、難易度の低いテストでは逆に相当程度の過小評価（underconfidence）が観察された。

この知見をもとに、難易度の異なる水準にわたってモデルのキャリブレーションを評価するためのテスト「LifeEval」を開発した。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

クーポンコードMERLIN20で20%オフ

関連記事