OpenAIは、AIのプログラミング能力を測る代表的ベンチマーク「SWE-bench Verified」に重大な欠陥があると報告。テストが正しい解答を拒否するケースが59.4%に及び、また最先tant端モデルがトレーニング時にベンチマークデータを参照するデータ汚染も確認された。
2024年8月にOpenAIが公開した「SWE-bench Verified」は、AIのプログラミング能力を測る代表的な指標として広く使われてきました。しかし新たな分析により、このベンチマークには2つの重大な問題があり、「もはや最先端モデルの能力を正しく測定するべきベンチマークとして適切ではない」とOpenAIが提言しています。
SWE-bench Verifiedは、より正確な評価を提供するベンチマークとしてリリースされました。OpenAIが2023年にリリースした元の「SWE-bench」は、12のオープンソースPythonリポジトリのいずれかにある解決済みのGitHub issueを出典とし、対応するプルリクエストと組み合わせることで、モデルが生成したコード変更が正しいかどうかを判断するテストを用意します。AIモデルは元の問題テキストと修正前のリポジトリの状態のみに基づいてコードの修正や変更を生成する必要があり、その変更が適用された後にテストが実施されます。
SWE-bench Verifiedはリリース後、広く最先端モデルの評価に用いられました。初期はモデルのパフォーマンスが急速に上昇していましたが、2025年8月から2026年2月の6か月間では6%程度の改善と、成長が鈍化しています。この成長の鈍化がモデルの限界を示しているのか、それともデータセット自体の特性を反映しているのか、SWE-bench Verifiedの有効性を再確認する必要がありました。
詳細な分析を実施したところ、SWE-bench Verifiedには2つの重大な問題があることが判明しました。
1つ目の問題は「テストが正しい解法を拒否することがある」という欠陥です。OpenAIの分析では、モデルが解けなかったデータセットの27.6%を監査したところ、少なくとも59.4%に「機能的に正しい解答の送信を拒否してしまう欠陥のあるテストケース」が含まれていたことが判明しました。つまり、本来は正しいコード修正をAIがしていた場合でも、答えが単一ではないなどテストの作り方が不適切なために、「不正解」と判定されてしまうケースがあるということです。OpenAIは「これは、SWE-bench Verifiedの初期作成時に改善すべく最大限の努力を払ったにもかかわらず、起きた現象です」と語っています。
もう一つの重大な問題が「データ汚染」です。SWE-benchの問題は、多くのモデル提供者が学習目的で使用するオープンソースのリポジトリから取得されています。OpenAIの分析では、最先端モデルが問題文や実際の修正コードを再現できてしまうケースが確認され、「試験前に問題と答えを見ている」状態にあったことが指摘されました。つまり、ベンチマーク結果のパフォーマンス向上は、モデルの改善ではなく、「モデルがトレーニング時にベンチマークをどれだけ参照していたか」を反映している可能性が高いというわけです。
OpenAIは2026年2月時点の最新モデルであるGPT-5.2を用いた検証結果も紹介しています。SWE-bench Verifiedで「失敗」と判定された問題の一部について人間が精査したところ、実際には正しい修正を行っていたにもかかわらずテストの不備によって不正解とされていたケースが多数確認されました。また、モデルが問題に含まれるコード変更をそのまま再現できてしまう例も確認されており、これは事前学習によるデータ汚染の影響を示唆するものです。
こうした問題を受けてOpenAIはSWE-bench Verifiedの結果報告を停止し、代替ベンチマークの利用を進める方針を示しています。
