AIモデル性能の比較プラットフォーム「Arena」の最新ランキングでは、米国と中国がほぼ並行して競争している。2023年初頭はOpenAIがリードしていたが、2024年にはGoogle、Anthropicが追随し、2025年2月には中国のDeepSeekが米国トップモデルに並ぶ。現在は性能面で差が縮小し、コスト、信頼性、実用性で競い合っている。
米国と中国がほぼ並行している
地政学的な重要性が高い長く激しい競争において、米国と中国はAIモデルの性能でほぼ肩を並べている。ユーザーが同じプロンプトに対する大規模言語モデル(LLM)の出力を比較できるコミュニティ主導のランキングプラットフォーム「Arena」によると、2023年初頭はOpenAIがChatGPTでリードしていたが、2024年にはGoogleとAnthropicが独自モデルをリリースしたことで差が縮まった。2025年2月には、中国の研究所DeepSeekが開発したAIモデル「R1」が米国トップモデルのChatGPTに一時並んだ。2026年3月現在、Anthropicがリードしており、xAI、Google、OpenAIが密接に後続している。DeepSeekやAlibabなどの中国モデルは控えめな差で遅れをとっている。最高のAIモデルがランキングで極めてわずかな差で競い合う中、企業はコスト、信頼性、実世界での有用性で競争するようになっている。
このランキングは、米国と中国が異なるAI優位性を持つことを指摘している。米国はより強力なAIモデル、より多くの資本、そして推定5,427のデータセンター(他のどの国よりも10倍以上多い)を有している一方、中国はAI研究論文、特許、ロボティクスでリードしている。
競争が激化する中、OpenAI、Anthropic、Googleなどの企業は訓練コード、パラメータ数、データセットサイズを明かさなくなっている。「モデルの動作を予測することについて、われわれが知らないことが多くある」と、この報告書の共著者である南カリフォルニア大学のコンピュータサイエンティスト、ヨランダ・ギル氏は述べている。この透明性の欠如により、独立した研究者がAIモデルをより安全にする方法を研究することが難しくなっていると彼女は指摘している。
AIモデルは極めて高速に進化している
開発がプラテーに達するという予測にもかかわらず、AIモデルは継続的に改善されている。いくつかの指標によると、博士号レベルの科学、数学、言語理解を測定することを目指したテストでは、人間の専門家と同等かそれを上回るパフォーマンスを発揮するようになった。AIモデル用のソフトウェアエンジニアリングベンチマーク「SWE-bench Verified」では、2024年の約60%から2025年にはほぼ100%へと上位スコアが急上昇している。2025年には、AIシステムが単独で天気予報を作成した。
「このテクノロジーが継続的に改善され、どのような形でもプラテーに達していないことに驚いている」とギル氏は述べている。
しかし、AIは他の多くの分野ではいまだに困難を抱えている。モデルが物理的な世界を経験するのではなく、膨大なテキストと画像を処理することで学習するため、AIは「ギザギザした知能(jagged intelligence)」を示す。ロボットはまだ初期段階にあり、家事の12%でしか成功していない。自動運転車はより進んでいる:Waymoは現在、複数の地域で運用されている。
