AnthropicAIセーフティ研究

Claudeが人間研究者を上回った実験結果が本番環境で消える

速報2026.04.15 14:29

Anthropicの実験で、9個の自律的なClaudeインスタンスが人間研究者を大幅に上回るスコアを達成しました。しかし、この成功した手法を本番環境のモデルに適用したところ、効果はほぼゼロになってしまいました。

この記事について質問する…検索

統制された実験環境では、9個の自律型Claudeインスタンスがオープンなアライメント問題で人間研究者を大幅に上回る成績を示しました。しかし、Anthropicが勝利した手法を自社の本番モデルに適用しようとした際、その効果は消えてしまいました。

AIシステムが開発者より優れた知性を持つ場合、誰がそのAIを制御するのか。これはアライメント研究（AI安全性）の中心的な問題で、AI システムが人間の意図通りに動作することを確保することを目的とした分野です。問題は、オープンな研究課題が対応できる人材数をはるかに上回っているため、Anthropicはhow Claude自体がこの作業の一部を担当できるかをテストすることにしました。

この実験は、小規模で弱いAIモデルが、2つのチャット応答のうちどちらが優れているかについて、より大規模で強力なモデルに教えるという特定のシナリオを中心としています。このような評価は有用なAIシステムの訓練に重要ですが、「教師」が「生徒」より劣っており、生徒の可能性のどの程度がまだ開放できるかという問題があります。

Anthropicはこれを「Performance Gap Recovered（PGR）」と呼ぶもので測定しました。スコア0は生徒が弱い教師より優れた性能を示していないことを意味し、1は完全な能力に達したことを意味します。このシナリオは、弱い教師として人間が超人的なAIを監督する必要がある将来のモデルとして機能します。

9個のClaudeインスタンスが人間チームを上回る

Anthropicによると、Claude Opus 4.6の9つのインスタンスが、それぞれ独自の作業環境、共有フォーラム、および評価サーバーへのアクセスを受け取りました。各インスタンスは意図的に曖昧な初期指示を受け取りましたが、それ以降の「自動アライメント研究者（AAR）」はまったく自律的に機能し、仮説を立て、実験を設計し、結果を分析しました。

2人の人間研究者は7日後にPGR 0.23に達しました。9つのClaudeインスタンスは5日間で0.97に達し、約18,000ドルのコストで、より強力なモデルのほぼすべてのポテンシャルを開放しました。

印象的なラボ結果、厳しい現実世界の性能

重大な問題があります。すべての実験は小規模で自由に利用可能なオープンソースモデル、特に0.5および40億パラメータのQwenモデルで実行されました。Anthropicが最適な方法を本番モデルのClaude Sonnet 4に社内トレーニングインフラストラクチャを使用して適用しようとしたとき、研究によると効果は統計的に有意ではなく、改善は0.5ポイントに留まり、基本的にノイズと同じでした。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

LLM生成AIビジネス

Claudeが人間研究者を上回った実験結果が本番環境で消える

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

iPhoneユーザーが語る：車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦