Anthropicが新フラグシップモデル「Claude Opus 4.7」を発表した。コーディングベンチマークで大幅に性能を向上させた一方で、訓練時にサイバーセキュリティ関連の機能を意図的に削減している。また画像処理解像度が3倍以上に向上した。
Anthropicの新フラグシップモデル「Claude Opus 4.7」は、コーディングタスクにおいて大幅な改善をもたらします。訓練期間中、同社は意図的に特定のサイバーセキュリティ能力を削減しようと試みました。
Anthropicは「Claude Opus 4.7」をリリースし、前身モデルの「Opus 4.6」の直接的なアップグレードとしています。同社はこのモデルを主に自律的なコーディングの進歩として位置付けています。SWE-bench Proコーディングベンチマークで、Opus 4.7は64.3%のスコアを獲得し、前身の53.4%から上昇し、OpenAIの「GPT-5.4」の57.7%を上回っています。Anthropic自身の最高峰モデルである「Claude Mythos Preview」は依然として77.8%で大きく先んじています。
Anthropicは、Opus 4.7が前身よりも指示をより正確に従うと述べています。同社は、古いモデル向けに作成されたプロンプトが予期しない結果を生じる可能性があることを指摘しており、Opus 4.7がOPus 4.6よりも文字通りに指示を解釈するためです。Opus 4.6は時に指示の一部を大雑把に解釈したり、スキップしたりしていました。
画像解像度が3倍以上に向上し、ビジュアル理解が向上
Opus 4.7は長辺で最大2,576ピクセルで画像を処理し、Anthropicはこれが約3.75メガピクセル、つまり以前のClaudeモデルが処理できたものの3倍以上になると述べています。これはAPI設定ではなく、モデルレベルの変更です。画像は自動的にこれより高い解像度で処理されますが、その結果、消費するトークン数が増加します。追加の詳細を必要としないユーザーは、送信前に画像をダウンスケールすることができます。
Anthropicはこれを、密集したスクリーンショットを読む必要があるコンピュータ使用エージェント(computer-use agent)および複雑な図表からデータを抽出するための大きな利点と見なしています。ドキュメント推論ベンチマーク(OfficeQA Pro)で、同社は80.6%の精度を報告しており、Opus 4.6の57.1%から上昇しています。ベンチマークはまた、生体分子推論およびビジュアルナビゲーション(ScreenSpot-Pro)において著しい向上を示しています。
Anthropicはサイバー能力を意図的に制限
このリリースのより注目すべき側面の1つは、Anthropicがモデルのサイバーセキュリティ能力にどのように対処するかです。同社は、訓練中に特定のサイバー能力を選別的に削減することを実験的に試みたと述べています。新しいセーフガードは、禁止されているか高リスク(high-risk)のサイバーセキュリティ使用を示唆するリクエストを自動的に検出・ブロックするように設計されています。
ここでの背景は、最近発表された「Project Glasswing」です。この計画において、AnthropicはサイバーセキュリティのためのAIモデルのリスクと利点に対処しました。同社は、より能力の高いMythos Previewのリリースをより制限することを説明していました。
