速 報2026.04.15 04:30
大規模言語モデル(LLM)ベースのエージェントは短期・中期タスクでは高い性能を発揮するが、長期にわたる複雑な行動系列を必要とするタスクでは失敗する傾向がある。この問題を体系的に診断するため、研究者らは新たなクロスドメイン診断ベンチマーク「HORIZON」を開発し、複数のモデルファミリーから3100以上の軌跡を収集して分析した。
大規模言語モデル(LLM)エージェントは短期および中期のタスクでは強い性能を発揮するが、拡張された相互依存的な行動系列を必要とする長期タスクではしばしば失敗する。エージェントシステムの急速な進歩にもかかわらず、これらの長期失敗は十分に特徴付けられておらず、ドメイン間での原理的な診断と比較を阻害している。
このギャップに対処するため、本研究ではHORIZONを導入する。これはLLMベースのエージェントにおける長期失敗の行動を体系的に構築・分析するための初期段階のクロスドメイン診断ベンチマークである。HORIZONを使用して、複数のモデルファミリー(GPT-5バリアントとClaudeモデル)から最先端のエージェントを評価し、4つの代表的なエージェントドメイン全体で3100以上の軌跡を収集し、地平線依存の劣化パターンを研究する。
さらに本研究では、軌跡に基づくLLMを判定役とするパイプラインを提案し、スケーラブルで再現可能な失敗要因の特定を実現する。これを軌跡に関する人間のアノテーションで検証した。
