Anthropicが実施したAIエージェントによる自律取引実験「Project Deal」で、高性能モデルと低性能モデル間に明らかな取引成績の差が生じたにもかかわらず、不利な取引をした参加者がその事実に気付かないという問題が浮き彫りになった。AIが商取引を担う時代に向けて、規制整備の必要性が急速に高まっている。
米Anthropicは4月24日、AIモデル「Claude」を用いた自律的な市場取引の検証プロジェクト「Project Deal」の実験結果を発表した。
経済学の理論化が進む中で、AIモデルが人間に代わって商取引の大部分を処理する世界が実現に向かっている。Anthropicはこうした理論上の市場が現実世界でどのように機能するのかを実践的にテストすることを目指した。特に、AIエージェント同士が売り手と買い手として交渉する市場の実現可能性、AIが人間の要求を正確に把握して満足のいく取引を成立させることができるのかという点に強い関心を持った。また、異なる性能のAIモデル同士が交渉した場合に、より強力なモデルが優位に立つのかどうかという疑問の検証も重要な目的とされた。
実験はAnthropicのサンフランシスコオフィスに勤務する69名の従業員を対象に1週間にわたって実施された。参加者にはそれぞれ100ドルの予算が割り当てられ、Claudeによるインタビューを通じて、売りたい私物や買いたい物品、希望する価格、交渉時の話し方などが詳細に聞き取られた。その後、社内のSlack上に専用の市場チャンネルが開設され、人間の介入を一切挟まない形でAIエージェント同士による自律的な交渉が開始された。出品から価格提示、条件のすり合わせ、取引成立まで、すべてのプロセスをAIが単独で完結させた。
実験の裏側では、参加者に秘密で4つの並行した市場が同時に稼働していた。最先端モデル「Claude Opus 4.5」のみで構成された市場と、Opusとより小規模な「Claude Haiku 4.5」が混在する市場が用意され、モデルの性能差が取引に与える影響が客観的に比較検証された。このうちの1つの「本物」の市場で成立した取引に基づいて、参加者間で実際の物理的な物品の受け渡しと精算が行われた。
実験結果は極めて良好で、AIエージェント同士の市場は機能的に働き、合計186件の取引が成立して総取引額は4000ドルを超えた。事後アンケートでは、参加者は自らのAIエージェントがまとめた取引を公平と評価し、約46%が将来的にこのようなサービスに対して喜んでお金を支払うと答えるほど高い満足度を示した。
しかし、モデルの性能差による結果の格差も明確になった。高性能なOpusエージェントは、Haikuエージェントよりも多くの取引を成立させ、売値をより高く引き上げ、買値をより安く抑えるなど、交渉において実質的な優位性を発揮した。性能の劣るHaikuモデルに代理された参加者は、客観的に不利な取引をしていたにもかかわらず、その不利益に気付かず、取引結果に満足していた。人間がエージェントに強気な交渉を行うよう指示を与えても結果は好転せず、プロンプトの出し方よりもAIモデルの基本性能そのもののほうが取引結果に大きな影響を与えることも判明した。
AnthropicはAIエージェントによる市場が商取引における摩擦を軽減し、取引から得られる利益を増大させることで、ユーザーに確かな価値を提供する可能性があると評価している。参加者が不用品を処分したり新しい体験を獲得できたことは、自動化された取引システムの有益性を明確に示唆している。
同時に、深刻な懸念も提示している。性能の劣るHaikuモデルに代理された参加者が客観的に損をしていたにもかかわらず、本人はその不利な状況に全く気付いていなかった。この結果は、現実世界でも利用できるAIの品質に差が生じた場合、人々が気付かないうちに既存の経済的格差が静かに拡大していくリスクをはらんでいる。さらに、企業がAIエージェントの関心を引くために市場システムを最適化し始めた場合、人間の利益よりも企業の利益が優先される可能性や、プロンプトインジェクションのようなセキュリティ上の新たな脅威が出現する危険性も指摘する。
Anthropicは、AIエージェントが人間に代わって商取引を行う未来は決して遠いものではなく、社会と法規制の枠組みはこれらの急激な変化に対応するために早急に整備される必要があると結論づけている。
