AILIBERALMEDIA
大規模言語モデルの確信度キャリブレーション:過信傾向と難易度効果の実証研究
← 一覧に戻る
LLM研究AIセーフティ

大規模言語モデルの確信度キャリブレーション:過信傾向と難易度効果の実証研究

速 報2026.05.26 13:34

大規模言語モデル(LLM)の確信度キャリブレーションを多様なタスクで調査した結果、LLMは人間と同様に自身の正答を過信する傾向があることが判明した。ただしこの傾向は難易度によって大きく左右され、難問では過信が顕著である一方、易問では逆に過小評価が生じる。

大規模言語モデル(LLM)の確信度キャリブレーション(calibration)を多様なタスクにわたって調査した。

事前登録済み研究の結果、現行のLLM群は人間と同様に、自身が正しいと過度に確信する傾向があることが示された。すなわち、平均的に確信度が正答率を上回っている。

ただし重要なことに、この傾向は強力な「難易度効果(hard-easy effect)」によって調整される。難易度の高いテストでは過信が最も顕著に現れる一方、難易度の低いテストでは逆に相当程度の過小評価(underconfidence)が観察された。

この知見をもとに、難易度の異なる水準にわたってモデルのキャリブレーションを評価するためのテスト「LifeEval」を開発した。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

  • YouTubeの要約やウェブサイトの分析など、使い方は無限大
  • 最新AIモデルを1つに統合しコストを削減
  • 500万人以上が利用する信頼のブランド
無料で始める
クーポンコードMERLIN20で20%オフ

関連記事

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回
OpenAIAnthropic生成AI

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回

2026.05.27 13:34
眼科医が処方を間違えた眼鏡、AIが解決策を導き出した
生成AILLMビジネス

眼科医が処方を間違えた眼鏡、AIが解決策を導き出した

2026.05.27 13:33
YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入
Google生成AI規制・政策

YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入

2026.05.27 13:33