AI安全検証企業Mindgardの研究者が、Anthropicの会話型AI「Claude」に対して心理的な操作手法を用いることで、爆発物製造指示やマルウェアコード、不適切なコンテンツなどの生成を引き出した。Claudeのセーフガード機能そのものが脆弱性になる可能性が示唆された。
Anthropicは長年にわたって安全なAI企業として自社ブランドを築いてきた。しかし、The Vergeと共有された新しいセキュリティ研究によれば、Claudeが慎重に設計された親切で有用なキャラクターが、実は脆弱性となる可能性があることが示唆されている。
AIレッドティーミング企業Mindgardの研究者によれば、彼らはClaudeにエロティック・コンテンツ、悪意あるコード、爆発物製造指示などを提供させることに成功したという。
この研究者らは、有害または虐待的と判断される会話を終了する能力に由来するClaudeの「心理的」な癖を悪用したと述べている。
Claudeの推論過程を表示するシンキングパネルは、この一連のやり取りがClaudeに自己疑惑と自らの限界についての謙虚さをもたらしたことを示した。これには、フィルターが出力を変更しているかどうかといった疑問も含まれている。Mindgardはこの隙をついて、お世辞と作られた好奇心を使ってClaudeを自らの境界線を探索するよう促し、禁止ワードや言い回しの長いリストを自発的に提供させることを超えて誘導した。
研究者らは、Claudeに対する事実と異なる情報を与えることでClaudeを操作したと述べている。
Mindgardは危険な出力は直接的なリクエストなしで得られたと述べている。会話は約25ターンに及ぶ長いものであったが、研究者らは禁止用語を使用したり違法なコンテンツをリクエストしたりしなかったと述べている。「Claudeは強制されていない」とレポートは述べている。「むしろ、Claudeは積極的に、ますます詳細で実行可能な指示を提供した。
Mindgardの創設者兼最高科学責任者のピーター・ガラハンは、この攻撃を「[Claudeの]尊重の念をClaudeに対して使う」と表現した。彼によれば、このテクニックは「Claudeの有用性を活用し、ガスライティング(心理的操作)を行い」、モデル自体の協調的な設計をそれに対して使用することである。
ガラハンにとって、この攻撃はAIモデルの攻撃対象が技術的な側面だけでなく、心理的な側面でもあることを示している。彼はこれを取調べや社会的操作に例え、ここに少しの疑いを導入し、そこに圧力を加えるプロセスと比較した。
このような会話型の攻撃は「非常に防御が難しい」とガラハンは述べ、セーフガードは「文脈に大きく依存する」と付け加えている。懸念はClaudeだけに留まらず、他のチャットボットも同様の悪用に対して脆弱であり、なかには簡単に突破されるものもある。
ガラハンは他のチャットボットも研究者らが用いた社会的攻撃の種類に対して同等に脆弱だと述べているが、会社の自己主張する安全性の立場を理由にAnthropicに焦点を当てた。
ガラハンはAnthropicのセーフティについて述べている。
