LLM研究AIセーフティ

LLMエージェントの長期タスク失敗を診断する新ベンチマーク「HORIZON」を提案

速報2026.04.15 04:30

大規模言語モデル（LLM）ベースのエージェントは短期・中期タスクでは高い性能を発揮するが、長期にわたる複雑な行動系列を必要とするタスクでは失敗する傾向がある。この問題を体系的に診断するため、研究者らは新たなクロスドメイン診断ベンチマーク「HORIZON」を開発し、複数のモデルファミリーから3100以上の軌跡を収集して分析した。

大規模言語モデル（LLM）エージェントは短期および中期のタスクでは強い性能を発揮するが、拡張された相互依存的な行動系列を必要とする長期タスクではしばしば失敗する。エージェントシステムの急速な進歩にもかかわらず、これらの長期失敗は十分に特徴付けられておらず、ドメイン間での原理的な診断と比較を阻害している。

このギャップに対処するため、本研究ではHORIZONを導入する。これはLLMベースのエージェントにおける長期失敗の行動を体系的に構築・分析するための初期段階のクロスドメイン診断ベンチマークである。HORIZONを使用して、複数のモデルファミリー（GPT-5バリアントとClaudeモデル）から最先端のエージェントを評価し、4つの代表的なエージェントドメイン全体で3100以上の軌跡を収集し、地平線依存の劣化パターンを研究する。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

さらに本研究では、軌跡に基づくLLMを判定役とするパイプラインを提案し、スケーラブルで再現可能な失敗要因の特定を実現する。これを軌跡に関する人間のアノテーションで検証した。

生成AILLMセキュリティ

LLMエージェントの長期タスク失敗を診断する新ベンチマーク「HORIZON」を提案

関連記事

ソフトバンク、国産LM「さらしな」をオラクル基盤のクラウドで提供開始

Claude Mythosの脅威に日本金融業界が危機感、防御体制の根本的転換が急務

ソフトバンク、AI搭載スマホ「Natural AI Phone」を1年間独占販売へ