速 報2026.05.10 09:31
METRは現在のテストスイートではClaude Mythos Previewをほぼ測定できず、228タスク中わずか5タスクしか該当する能力範囲をカバーしていない。一方、Palo Alto Networksはフロンティアモデルが脆弱性を自律的に連鎖させ、初期アクセスからデータ流出までの時間をわずか25分に短縮できることを報告している。評価手法がモデル自体の進化よりも遅い速度で発展しており、これが重大な問題となる可能性がある。
METRは現在のテストスイートではClaude Mythos Previewをほぼ測定できない。228タスク中わずか5タスクしか該当する能力範囲をカバーしていないのが現状だ。
一方、Palo Alto Networksはフロンティアモデルが脆弱性を自律的に連鎖させることを報告している。初期アクセスからデータ流出までの時間がわずか25分に短縮される攻撃シナリオが確認されている。
評価手法の進化速度がモデル自体の進化よりも遅く進んでおり、これが今後より大きな問題になる可能性がある。
