英国AI Security InstituteがAnthropicの新モデル「Claude Mythos Preview」のサイバーセキュリティ能力を評価。32段階の企業ネットワーク攻撃シミュレーションで、従来モデルを大きく上回る性能を示し、人間の専門家が20時間要するタスクを自律実行できることが確認された。
AIの安全性評価を担う英国政府の研究機関AI Security Institute(AISI)は4月13日、Anthropicが発表した次世代モデル「Claude Mythos Preview」(Mythos)のサイバーセキュリティ能力に関する評価結果を公開した。評価によれば、Mythosは従来モデルを上回る性能を示し、人間の専門家が数日を要する多段階サイバー攻撃を自律的に実行できることが確認された。AISIは、同等の能力を持つモデルが公開される将来に備え、組織に対してサイバーセキュリティの基本を押さえる必要性を強調している。
## 多段階攻撃シミュレーションを"完遂"
AISIは今回、2種類の評価を実施した。1つ目は、システムの脆弱性を突いて隠された情報を奪取する「キャプチャー・ザ・フラッグ」(CTF)形式の評価である。タスクの難易度別に実施されたこの評価において、Mythosは2025年4月以前にはどのモデルも解けなかった専門家レベルのタスクにおいて、73%の成功率を記録した。
2つ目は、現実のサイバー攻撃手法を再現した「サイバーレンジ」と呼ばれる評価だ。AISIは初期偵察からネットワークの完全掌握までを再現した32段階の企業ネットワーク攻撃シミュレーションを構築した。人間の専門家が約20時間かかると想定されるこのシミュレーションにおいて、Mythosは10回の試行中3回で全工程を完遂した初のモデルとなった。全試行の平均でも32段階中22段階を突破しており、「Claude Opus 4.6」の16段階を上回っている。この結果を受けてAISIは、Mythosがネットワークへのアクセス権が取得された小規模で防御が脆弱なエンタープライズシステムに自律的に攻撃する能力があると判断した。
工場の制御系などOT環境を対象とした別のシミュレーションでは完遂に至らなかったが、AISIはこれをITセクションで詰まったものと分析し、OT環境での攻撃能力が低いとは言えないと述べている。また、AISI の評価環境にはアクティブな防御担当者や検知ツールが存在せず、攻撃的行動へのペナルティもないため、十分に防御された実環境で同等の結果を出せるかは不明であるとしている。
## AISIが示す、組織が今すべきこと
AISIは、今回の結果を受けて二つの方向性を示した。まず、組織が今取るべき対策として、セキュリティアップデートの定期適用、堅牢なアクセス制御、適切なセキュリティ設定、包括的なログ記録といった基本的な対策の重要性を改めて訴えた。
もう一つは、評価手法自体の進化の必要性である。AIの能力向上が続く中、防御のない環境でのテストではモデル間の差異を十分に測れないとの認識を示し、今後はリアルタイム検知やインシデント対応を含む、より現実に即した防御環境での評価へ移行する方針を示した。さらにAISIは、AIのサイバー能力が攻撃と防御の双方に活用しうることを強調し、防御面での活用可能性にも期待を寄せている。
