ミシガン大学などの研究により、AI エージェントはトークン消費量が従来の対話型 AI より桁違いに多く、同じタスクでも異なるモデル間やモデル内での実行でコストが大きく変動することが判明した。ユーザーは信頼できるコスト見積もりと性能保証の提供を企業に要求する必要がある。
AI エージェント実装の多くの課題の中で、最も理解されていない問題はコストである。
ミシガン大学とスタンフォード大学、All Hands AI、Google の DeepMind、Microsoft、MIT の共同による新しい研究によると、その結果は衝撃的かもしれない:トークンコスト(トークンコストとは、AI モデルが処理する情報の基本単位であるトークンの消費量に基づく費用)が急騰し、予測不可能になる可能性があるのだ。
ミシガン大学の主著者 Longju Bai と各機関の共同研究者による研究は、arXiv に掲載された。本研究の著者に複数の大手テクノロジー企業の研究者が含まれていることは特筆すべき点である。
トップレベルの発見は、エージェントが単純な対話型の応答と比べて桁違いに多くのトークンを消費するということである。
トークンとは、AI モデルが処理する情報の基本単位である。エージェントがトークン数でより多くのコストがかかることは予想されるかもしれないが、研究はさらに警告すべき事実を明らかにしている。異なるモデルは同じタスクで全く異なるトークンコストを持つことができる。そして同じモデルが同じタスクに取り組むたびに異なるコストを持つことができる。
最悪の点は、このいずれもが予測不可能であることである。
「エージェント的タスクは独特に高コストである」と研究者は述べており、一方、トークン数の増加は必ずしも成功を保証しないのだ。
上昇するコストと成功の不確実性は、現在の価格設定モデルでは全くアカウントされていない。
大きな流れとしては、ユーザーが集団で OpenAI および他のベンダーに対して、信頼できるコスト見積もりと性能保証の何らかの形式の提供を要求する必要があるだろう。
OpenAI、Google、Anthropic にコメントを求めた。
トークンコストの計算
コストを研究するため、Bai チームはイリノイ大学アーバナ・シャンペーン校の研究者らが開発したオープンソースのエージェント型 AI フレームワーク OpenHands を使用した。彼らは OpenHands を使ってエージェントを構築し、オープンソースのコーディングベンチマークテストである SWE-Bench でテストした。SWE-Bench タスクは実際の GitHub の issue から取られている。
まず彼らはモデルの相対的な強みを発見した。OpenAI の ChatGPT 5 および 5.2 は「低コストで高い精度を達成する」一方、最も正確ではない。Anthropic の Claude Sonnet-4.5 は最高の精度を達成したが、より高いトークンコストでであった。Google の Gemini-3 は
