OpenAIAnthropicGoogleビジネス研究

AI大手モデルが投資銀行業務をテスト、クライアント提出可能な出力はゼロ

速報2026.04.26 13:31

Handshake AIとマギル大学の研究チームが、投資銀行ジュニアの日常業務をテストするベンチマーク「BankerToolBench」を公開。GPT-5.4やClaude Opus 4.6などトップモデルを評価した結果、クライアントへの提出に適した出力は1件もなかった。

Handshake AIとマギル大学の研究チームが、投資銀行ジュニアの典型的なワークフローに対してAIエージェント（エージェント）をテストするオープンソースベンチマーク「BankerToolBench」を公開した。

このベンチマークでは、GPT-5.4やClaude Opus 4.6などのトップモデルに対して、投資銀行ジュニアが日常的に扱うタスクを実施させた。結果として、クライアントに送付する準備ができた出力は1件もなかった。ただし、銀行家の半数以上は、これをたたき台として使用する意思があると述べている。

Handshake AIはキャリアプラットフォーム「Handshake」のビジネス部門である。研究チームはゴールドマン・サックス、JPモルガン、エバーコア、モルガン・スタンレー、ラザードを含む企業から約500人の現職および元投資銀行家を集めた。このうち172人が自らタスクを設計し、5,700時間以上の作業ログを記録した。100個のタスクそれぞれについて、人間の銀行家は平均5時間を要しており、最長で21時間に達するものもある。

実際のExcelモデルを対象に、単なるテキスト回答ではない

BankerToolBenchはジュニア銀行家が上司に提出する実際の成果物を採点する。対象となるのはワーキング式を含むExcel財務モデル、クライアント向けプレゼンテーションのPowerPointデック、PDFレポート、Wordメモである。

エージェント（エージェント）はデータルームから情報を掘り起こし、FactSetやCapital IQといった市場データプラットフォームから引き出し、SECファイリングを解析する必要がある。論文によれば、1つのタスクで最大539回の言語モデルへの呼び出しが発生し、そのうち97パーセントはツール使用またはコード実行に関連している。

各成果物は銀行家が設計したルーブリック（評価基準）に照らし合わせてチェックされる。このルーブリックは平均150個の個別基準を含み、技術的正確性、クライアント対応可能性、コンプライアンス（法令遵守）、監査可能性、ファイル間の一貫性を含む6つの領域をカバーしている。

採点はGemini 3 Flashをベースとした「Gandalf」という名前のAI検証機が担当する。

GPT-5.4がリードするも、合格点には程遠い

研究チームはGPT-5.2、GPT-5.4、Claude Opus 4.5および4.6、Gemini 2.5をテストした。

いずれのモデルの出力も、そのまま提出する準備ができたものはなかった。GPT-5.4では、わずか2パーセントのタスクがすべての重要度の高い基準をクリアした。Gemini 2.5ではさらに低い結果となっている。

Claude Opus 4.6の出力は一見したところ磨かれたものに見える、と研究者は述べている。しかし、Excelモデルは根本的な欠陥を明かす。主要な数値の大部分が計算式を通じて算出されるのではなく、固定値としてハードコードされている。投資銀行業では論文が指摘するように、これはシナリオ分析を不可能にするため致命的な欠陥である。購買

GPT-5.4のエージェント軌跡の分析は4つの反復する失敗パターンを明らかにする。最も一般的なのは

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

LLM生成AIビジネス

AI大手モデルが投資銀行業務をテスト、クライアント提出可能な出力はゼロ

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

iPhoneユーザーが語る：車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦