Handshake AIとマギル大学の研究チームが、投資銀行ジュニアの日常業務をテストするベンチマーク「BankerToolBench」を公開。GPT-5.4やClaude Opus 4.6などトップモデルを評価した結果、クライアントへの提出に適した出力は1件もなかった。
Handshake AIとマギル大学の研究チームが、投資銀行ジュニアの典型的なワークフローに対してAIエージェント(エージェント)をテストするオープンソースベンチマーク「BankerToolBench」を公開した。
このベンチマークでは、GPT-5.4やClaude Opus 4.6などのトップモデルに対して、投資銀行ジュニアが日常的に扱うタスクを実施させた。結果として、クライアントに送付する準備ができた出力は1件もなかった。ただし、銀行家の半数以上は、これをたたき台として使用する意思があると述べている。
Handshake AIはキャリアプラットフォーム「Handshake」のビジネス部門である。研究チームはゴールドマン・サックス、JPモルガン、エバーコア、モルガン・スタンレー、ラザードを含む企業から約500人の現職および元投資銀行家を集めた。このうち172人が自らタスクを設計し、5,700時間以上の作業ログを記録した。100個のタスクそれぞれについて、人間の銀行家は平均5時間を要しており、最長で21時間に達するものもある。
実際のExcelモデルを対象に、単なるテキスト回答ではない
BankerToolBenchはジュニア銀行家が上司に提出する実際の成果物を採点する。対象となるのはワーキング式を含むExcel財務モデル、クライアント向けプレゼンテーションのPowerPointデック、PDFレポート、Wordメモである。
エージェント(エージェント)はデータルームから情報を掘り起こし、FactSetやCapital IQといった市場データプラットフォームから引き出し、SECファイリングを解析する必要がある。論文によれば、1つのタスクで最大539回の言語モデルへの呼び出しが発生し、そのうち97パーセントはツール使用またはコード実行に関連している。
各成果物は銀行家が設計したルーブリック(評価基準)に照らし合わせてチェックされる。このルーブリックは平均150個の個別基準を含み、技術的正確性、クライアント対応可能性、コンプライアンス(法令遵守)、監査可能性、ファイル間の一貫性を含む6つの領域をカバーしている。
採点はGemini 3 Flashをベースとした「Gandalf」という名前のAI検証機が担当する。
GPT-5.4がリードするも、合格点には程遠い
研究チームはGPT-5.2、GPT-5.4、Claude Opus 4.5および4.6、Gemini 2.5をテストした。
いずれのモデルの出力も、そのまま提出する準備ができたものはなかった。GPT-5.4では、わずか2パーセントのタスクがすべての重要度の高い基準をクリアした。Gemini 2.5では さらに低い結果となっている。
Claude Opus 4.6の出力は一見したところ磨かれたものに見える、と研究者は述べている。しかし、Excelモデルは根本的な欠陥を明かす。主要な数値の大部分が計算式を通じて算出されるのではなく、固定値としてハードコードされている。投資銀行業では論文が指摘するように、これはシナリオ分析を不可能にするため致命的な欠陥である。購買
GPT-5.4のエージェント軌跡の分析は4つの反復する失敗パターンを明らかにする。最も一般的なのは
