Anthropicが実施したAIエージェント同士の市場取引実験「Project Deal」では、性能の異なるAIモデルが参加者に大きな取引格差をもたらしていたにもかかわらず、ユーザーはその不利益に気付かないという深刻な問題が浮き彫りになった。現実世界でAIエージェントが商取引を担う際の規制整備の必要性が指摘されている。
米Anthropicは4月24日、同社のAIモデル「Claude」を用いた自律的な市場取引の検証プロジェクト「Project Deal」の結果を公表した。
近年の経済学ではAIモデルが人間に代わって商取引の大部分を処理する世界についての理論化が進んでおり、Anthropicはこうした理論上の市場が現実世界でどのように機能するのかを実践的にテストすることを目指した。特にAIエージェント同士が売り手と買い手として交渉する市場がどの程度実現に近づいているのか、またAIが人間の要求を正確に把握して満足のいく取引を成立させることができるのかという点に強い関心を持ったという。加えて、異なる性能のAIモデル同士が交渉した場合、より強力なモデルが優位に立つのかどうかという疑問の検証も重要な目的とされた。
実験はAnthropicのサンフランシスコオフィスに勤務する69名の従業員を対象に、1週間にわたって実施された。参加者にはそれぞれ100ドルの予算が割り当てられ、事前に行ったClaudeによるインタビューを通じて、各参加者が売りたい私物や買いたい物品、希望する価格、交渉時の話し方などの指示が詳細に聞き取られた。その後、社内のSlack上に専用の市場チャンネルが開設され、人間の介入を一切挟まない形でAIエージェント同士による自律的な交渉がスタートした。出品から価格提示、条件のすり合わせから最終的な取引の成立まで、すべてのプロセスをAIが単独で完結させている。
実験の裏側では、参加者には秘密で4つの並行した市場が同時に稼働していた。当時の最先端モデルである「Claude Opus 4.5」のみで構成された市場と、OpusとClaude Haiku 4.5が混在する市場が用意され、モデルの性能差が取引に与える影響が客観的に比較検証された。最終的に、このうちの1つの「本物」の市場で成立した取引に基づいて、参加者間で実際の物理的な物品の受け渡しと精算が行われた。
実験の結果、AIエージェント同士の市場は極めて機能的に働き、合計186件の取引が成立して総取引額は4000ドルを超えた。事後アンケートでは、参加者は自らのAIエージェントがまとめた取引を公平なものと評価しており、回答者の約半数に当たる46%が、将来的にこのようなサービスに対して喜んでお金を支払うと答えるほど高い満足度を示した。
しかし同時に、モデルの性能差による結果の格差も明確になった。高性能なOpusエージェントは、Haikuエージェントよりも多くの取引を成立させ、売値をより高く引き上げ、買値をより安く抑えるなど、交渉において実質的な優位性を発揮したのである。性能の劣るHaikuモデルに代理された参加者は、客観的に不利な取引をしていたにもかかわらず、本人たちはその不利益に気付かず、取引結果に満足している。また、人間がエージェントに強気な交渉を行うよう指示を与えても結果は好転せず、プロンプトの出し方よりもAIモデルの基本性能そのもののほうが取引結果に大きな影響を与えることが判明した。
Anthropicは今回の結果を受けて、AIエージェントによる市場が商取引における摩擦を軽減し、取引から得られる利益を増大させることで、ユーザーに確かな価値を提供する可能性があると評価している。参加者が実験を通じて不用品を処分したり、新しい体験を獲得したりできたことは、自動化された取引システムの有益性を明確に示唆している。
しかし同時に、深刻な懸念も提示している。実験では、性能の劣るHaikuモデルに代理された参加者が客観的に損をしていたにもかかわらず、本人はその不利な状況に全く気付いていなかったことが明らかになった。この結果は、現実世界でも利用できるAIの品質に差が生じた場合、人々が気付かないうちに既存の経済的格差が静かに拡大していくリスクをはらんでいることを示している。
さらに、企業がAIエージェントの関心を引くために市場システムを最適化し始めた場合、人間の利益よりも企業の利益が優先される可能性や、プロンプトインジェクションのようなセキュリティ上の新たな脅威が出現する危険性も指摘される。
Anthropicは、AIエージェントが人間に代わって商取引を行う未来は決して遠いものではなく、社会と法規制の枠組みは、これらの急激な変化に対応するために早急に整備される必要があると結論づけている。
