Anthropicの実験で、9個の自律的なClaudeインスタンスが人間研究者を大幅に上回るスコアを達成しました。しかし、この成功した手法を本番環境のモデルに適用したところ、効果はほぼゼロになってしまいました。
この記事について質問する…検索
統制された実験環境では、9個の自律型Claudeインスタンスがオープンなアライメント問題で人間研究者を大幅に上回る成績を示しました。しかし、Anthropicが勝利した手法を自社の本番モデルに適用しようとした際、その効果は消えてしまいました。
AIシステムが開発者より優れた知性を持つ場合、誰がそのAIを制御するのか。これはアライメント研究(AI安全性)の中心的な問題で、AI システムが人間の意図通りに動作することを確保することを目的とした分野です。問題は、オープンな研究課題が対応できる人材数をはるかに上回っているため、Anthropicはhow Claude自体がこの作業の一部を担当できるかをテストすることにしました。
この実験は、小規模で弱いAIモデルが、2つのチャット応答のうちどちらが優れているかについて、より大規模で強力なモデルに教えるという特定のシナリオを中心としています。このような評価は有用なAIシステムの訓練に重要ですが、「教師」が「生徒」より劣っており、生徒の可能性のどの程度がまだ開放できるかという問題があります。
Anthropicはこれを「Performance Gap Recovered(PGR)」と呼ぶもので測定しました。スコア0は生徒が弱い教師より優れた性能を示していないことを意味し、1は完全な能力に達したことを意味します。このシナリオは、弱い教師として人間が超人的なAIを監督する必要がある将来のモデルとして機能します。
9個のClaudeインスタンスが人間チームを上回る
Anthropicによると、Claude Opus 4.6の9つのインスタンスが、それぞれ独自の作業環境、共有フォーラム、および評価サーバーへのアクセスを受け取りました。各インスタンスは意図的に曖昧な初期指示を受け取りましたが、それ以降の「自動アライメント研究者(AAR)」はまったく自律的に機能し、仮説を立て、実験を設計し、結果を分析しました。
2人の人間研究者は7日後にPGR 0.23に達しました。9つのClaudeインスタンスは5日間で0.97に達し、約18,000ドルのコストで、より強力なモデルのほぼすべてのポテンシャルを開放しました。
印象的なラボ結果、厳しい現実世界の性能
重大な問題があります。すべての実験は小規模で自由に利用可能なオープンソースモデル、特に0.5および40億パラメータのQwenモデルで実行されました。Anthropicが最適な方法を本番モデルのClaude Sonnet 4に社内トレーニングインフラストラクチャを使用して適用しようとしたとき、研究によると効果は統計的に有意ではなく、改善は0.5ポイントに留まり、基本的にノイズと同じでした。
