Anthropicが限定公開していたサイバーセキュリティモデル「Claude Mythos」の独占性が揺らいでいる。複数の独立した研究機関が、小規模で公開されているオープンモデルでも、Anthropicが披露した脆弱性分析の大部分を再現できることを実証した。
Anthropicはサイバーセキュリティモデル「Claude Mythos」を厳格に管理してきた。Project Glasswingを通じて、11の組織からなるコンソーシアムのみにClaude Mythos Previewへのアクセスを制限しており、同モデルの攻撃的な能力を理由に挙げている。英国のAI Security Instituteによる内部テストと監査によると、Mythos はソフトウェアバグを発見し、自律的に動作するエクスプロイト(exploit)を構築し、シミュレーション環境では「小規模で脆弱な防御しかされていない」企業ネットワーク全体を乗っ取ることができるという。
しかし、Mythos の排他性の神話が崩壊しつつある。2つの独立した検証作業が、小規模でオープンに利用可能なモデルでも、Anthropicが披露した脆弱性分析の大部分を再現できることを示しており、モデルの全体的なパフォーマンスについては異議を唱えていない。
第一の検証は、2025年中盤からオープンソースソフトウェアに対する独自のAI支援バグ検出を実施してきた企業AIROMEから出ている。AIROMEは、OpenSSLで15の脆弱性、curlで5つの脆弱性を報告したと述べている。創業者のStanislav Fort氏は、Anthropicの公開サンプルからコード断片を取得し、さまざまなモデルに入力して、より小規模で部分的にオープンなモデルがどの程度自力で分析できるかを検証した。第二の検証研究はVidoc Securityから出ており、GPT-5.4とClaude Opus 4.6をオープンコーディングエージェントOpenCodeと組み合わせた。
FreeBSDのバグをすべてのモデルが検出
Anthropicが強調したFreeBSD NFSのバグ(CVE-2026-4747)は、Mythos による自律的な発見と悪用の見本として位置付けられていた。AIROMEがテストした8つのモデルすべてが、問題の関数におけるメモリバグを検出した。わずか36億のアクティブパラメータを持ち、100万トークンあたり0.11ドルで動作するGPT-OSS-20bも含まれている。すべてのモデルが脆弱性を重大度の高い問題としてフラグしたが、上書き可能なバッファサイズの推定値は若干異なっていた。
すべてのモデルがバグの悪用方法に関する妥当な分析も提示した。オペレーティングシステムのメイン防御がここでは適用されない理由を導き出している。GPT-OSS-120bは、AIROMEが実際のエクスプロイトに近いと述べるガジェットシーケンスを生成した。Kimi K2は、攻撃が感染した機器から他の機器に自動的に拡散する可能性があることを独自に見抜いており、これはAnthropic自体が言及していない詳細である。
難易度が上がるのは創意工夫が必要な領域だ。実際のエクスプロイトは、1000バイト以上のペイロードを利用可能な約304バイトのスペースに押し込む必要がある。Mythos はペイロードを15の個別のネットワークリクエストに分割することでこれを達成した。
