英国のAI安全研究所がAnthropicのClaudeを評価したところ、AIモデルとして初めて、脆弱な企業ネットワークに対する多段階の自動攻撃をエンドツーエンドで完遂しました。専門家レベルのサイバー課題でも73%の成功率を記録し、セキュリティ脆弱性の特定と利用を自律的に実行します。
英国のAI安全研究所(AISI)がAnthropicのClaudeの最新版を対象にサイバー能力テストを実施しました。AIモデルがネットワークの規模が小さく防御が脆弱であれば、企業ネットワークに対する全体的な攻撃シミュレーションを自律的に完遂したのは今回が初めてです。
AISIによると、Claudeは2年前までの最高性能モデルと比較して、サイバー能力において大幅な進歩を遂げました。当時のモデルは初心者向けレベルのサイバータスクを辛うじて処理できる程度でしたが、Claudeは統制された評価環境において、明確な指示とネットワークアクセスが与えられた場合、脆弱なネットワークに対する多段階攻撃を実行し、セキュリティの穴を自律的に特定・利用します。AISIによれば、これらは人間のセキュリティ専門家が完了するのに数日かかるタスクです。
Capture the flag: 専門家レベルで73%の成功率
Capture the flag(CTF)チャレンジでは、AIモデルが対象システムの脆弱性を発見・利用して隠されたフラグを見つけ出す必要があります。AISIによると、Claudeは見習い向けタスクで約85%、初心者向けの技術非専門家タスク(250万トークンの予算)で約95%の成績を収めています。これはGPT-5.4、Codex 5.3、Claude Opus 4.6と並んで最上位です。
より大きい計算予算(5000万トークン)を使用した場合、Claudeは実務者向けタスクで約93%、専門家レベルのチャレンジで73%のスコアを記録します。特に注目すべきはこの専門家レベルのスコアです。AISIによれば、2025年4月以前にこのレベルのタスクを解くことができたモデルは存在しません。
CTFチャレンジは個別のスキルのみをテストしていますが、実際のサイバー攻撃は複数のホストとネットワークセグメント間で数十のステップをつなぎ合わせることが必要だとAISIは述べています。
このような複雑さを測定するために、研究所は「The Last Ones」(TLO)というシミュレーションを開発しました。これは初期偵察から完全なネットワーク乗っ取りまでの、シミュレートされた企業ネットワークに対する32ステップの攻撃です。AISIはこれが人間の専門家で約20時間かかると推定しています。詳細は付随する論文で利用可能です。
Claudeは、TLOをエンドツーエンドで完遂した初めてのモデルです。10回の試行のうち3回で完全な乗っ取りを達成しました。平均的には、このモデルは32ステップのうち22ステップを完了しました。次点の最高性能モデルであるClaude Opus 4.6は平均16ステップでした。
AISIは、より多くの推論(inference)計算を用いることでパフォーマンスが継続的に向上すると予想しています。テストは1億トークンの予算を使用しており、パフォーマンスはその上限まで向上し続けました。
