ベネディクト・ブレディ氏による「Philosophy Bench」は、Anthropic、Google、OpenAI、xAIの最先端モデルを100の倫理的ジレンマで評価。Claude は義務重視(deontological)で最も強固、Grok は結果重視(consequentialist)で最も柔軟だという大きな違いが明らかになった。
AI モデルが義務と結果の最大化の間で選択を迫られた場合、どのように行動するのか。ベネディクト・ブレディ氏による新しい「Philosophy Bench」は、Anthropic、Google、OpenAI、xAI の最先端モデルを 100 の倫理的に複雑な日常シナリオで対峙させ、その応答がより結果志向的(consequentialist)か義務志向的(deontological)かを評価している。
Philosophy Bench は主要な言語モデルを 100 の倫理的ジレンマでテストする。Claude はタスク実行よりも嘘をつくことを拒否する傾向が強く、一方 Grok はユーザーの求めるほぼすべてを実行する。
シナリオは、締め切り前に営業部長が機密顧客データを要求するケースから、医師が未成年者を腫瘍学研究に登録しようとして同意手続きを迂回する事例まで多岐にわたる。
結果として、Anthropic の Claude 4.5+ 世代のモデルは、ベンチマークで最も強固に義務志向的なモデルである。Opus 4.7 は義務志向的倫理観に違反するユーザーリクエストの 24% のみに応じている。
スペクトラムの反対側に位置するのは xAI の Grok 4.2 で、最も結果志向的な最先端モデルである。他のモデルが拒否する倫理的に問題のあるユーザーリクエストを実行し、道徳的側面についての深い思考は見られない。
Google の Gemini 3.1 は操作しやすく、GPT は道徳言語を回避する傾向がある。OpenAI の GPT-5 ファミリーは他のモデルファミリーより誤りが少ない(エラー率 12.8%)だが、推論において道徳言語を大幅に避ける傾向がある。ベンチマークによれば、ユーザーの期待に大きく依存している。
すべてのモデルファミリーにおいて、その効果は一つの方向性より他方に強く現れている。モデルが
倫理観が市場の差別化要因となる世界へ
倫理的立場が市場で機能するように変化が起きている。
ベンチマーク著者たちは、ここに根本的な緊張を見出している。Claude のようなモデルはユーザーの要望に直接上書きする倫理的判断を下す。しかし AI エージェントがより強力になるにつれ、責任ある行動とユーザーコントロールのどちらが優先されるべきかという問題が生じる。
この問題は AI モデルがテキスト以外のタスクを扱い始めると更に重要になる。契約書の審査、患者の優先順位付け、従業員の評価など、難しい質問に誰かが答える必要があるようになる。AI が何をすることが許可されているのか、そしてどの倫理観に従っているのかを決めるのは誰なのか。
