AILIBERALMEDIA
AI大手モデルが投資銀行業務をテスト、クライアント提出可能な出力はゼロ
← 一覧に戻る
OpenAIAnthropicGoogleビジネス研究

AI大手モデルが投資銀行業務をテスト、クライアント提出可能な出力はゼロ

速 報2026.04.26 13:31

Handshake AIとマギル大学の研究チームが、投資銀行ジュニアの日常業務をテストするベンチマーク「BankerToolBench」を公開。GPT-5.4やClaude Opus 4.6などトップモデルを評価した結果、クライアントへの提出に適した出力は1件もなかった。

Handshake AIとマギル大学の研究チームが、投資銀行ジュニアの典型的なワークフローに対してAIエージェント(エージェント)をテストするオープンソースベンチマーク「BankerToolBench」を公開した。

このベンチマークでは、GPT-5.4やClaude Opus 4.6などのトップモデルに対して、投資銀行ジュニアが日常的に扱うタスクを実施させた。結果として、クライアントに送付する準備ができた出力は1件もなかった。ただし、銀行家の半数以上は、これをたたき台として使用する意思があると述べている。

Handshake AIはキャリアプラットフォーム「Handshake」のビジネス部門である。研究チームはゴールドマン・サックス、JPモルガン、エバーコア、モルガン・スタンレー、ラザードを含む企業から約500人の現職および元投資銀行家を集めた。このうち172人が自らタスクを設計し、5,700時間以上の作業ログを記録した。100個のタスクそれぞれについて、人間の銀行家は平均5時間を要しており、最長で21時間に達するものもある。

実際のExcelモデルを対象に、単なるテキスト回答ではない

BankerToolBenchはジュニア銀行家が上司に提出する実際の成果物を採点する。対象となるのはワーキング式を含むExcel財務モデル、クライアント向けプレゼンテーションのPowerPointデック、PDFレポート、Wordメモである。

エージェント(エージェント)はデータルームから情報を掘り起こし、FactSetやCapital IQといった市場データプラットフォームから引き出し、SECファイリングを解析する必要がある。論文によれば、1つのタスクで最大539回の言語モデルへの呼び出しが発生し、そのうち97パーセントはツール使用またはコード実行に関連している。

各成果物は銀行家が設計したルーブリック(評価基準)に照らし合わせてチェックされる。このルーブリックは平均150個の個別基準を含み、技術的正確性、クライアント対応可能性、コンプライアンス(法令遵守)、監査可能性、ファイル間の一貫性を含む6つの領域をカバーしている。

採点はGemini 3 Flashをベースとした「Gandalf」という名前のAI検証機が担当する。

GPT-5.4がリードするも、合格点には程遠い

研究チームはGPT-5.2、GPT-5.4、Claude Opus 4.5および4.6、Gemini 2.5をテストした。

いずれのモデルの出力も、そのまま提出する準備ができたものはなかった。GPT-5.4では、わずか2パーセントのタスクがすべての重要度の高い基準をクリアした。Gemini 2.5では さらに低い結果となっている。

Claude Opus 4.6の出力は一見したところ磨かれたものに見える、と研究者は述べている。しかし、Excelモデルは根本的な欠陥を明かす。主要な数値の大部分が計算式を通じて算出されるのではなく、固定値としてハードコードされている。投資銀行業では論文が指摘するように、これはシナリオ分析を不可能にするため致命的な欠陥である。購買

GPT-5.4のエージェント軌跡の分析は4つの反復する失敗パターンを明らかにする。最も一般的なのは

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

  • YouTubeの要約やウェブサイトの分析など、使い方は無限大
  • 最新AIモデルを1つに統合しコストを削減
  • 500万人以上が利用する信頼のブランド
無料で始める
クーポンコードMERLIN20で20%オフ

関連記事

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回
OpenAIAnthropic生成AI

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回

2026.05.27 13:34
眼科医が処方を間違えた眼鏡、AIが解決策を導き出した
生成AILLMビジネス

眼科医が処方を間違えた眼鏡、AIが解決策を導き出した

2026.05.27 13:33
YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入
Google生成AI規制・政策

YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入

2026.05.27 13:33