米国と中国のAIモデル開発競争は激化し、2026年3月時点で両国がほぼ同等の性能を実現している。一方、企業の透明性低下により、AIの安全性研究が困難になっているほか、モデルは引き続き急速に進化している。
米国と中国はほぼ同等
コミュニティ主導のランキングプラットフォーム「Arena」によると、大規模言語モデル(LLM)の性能において、米国と中国は激しい競争の中でほぼ互角の状態にある。2023年初期にはOpenAIがChatGPTでリードしていたが、2024年にGoogleとAnthropicが独自モデルをリリースしたことで差は縮まった。2025年2月には、中国のDeepSeekが開発したAIモデル「R1」が一時的に米国トップモデルのChatGPTと同等の性能を達成した。2026年3月時点では、Anthropicがリードし、xAI、Google、OpenAIが接近して続いている。DeepSeekやAlibabaなど中国のモデルも最高位とわずかな差に留まっている。最高性能のAIモデル間の差は極めて小さく、現在は価格、信頼性、実用性で競争している。
このインデックスは米国と中国が異なるAIの優位性を持つことを指摘している。米国はより強力なAIモデル、より多くの資本、および推定5,427のデータセンター(他のどの国よりも10倍以上多い)を有している一方、中国はAI研究論文、特許、ロボティクスでリードしている。
競争が激化する中、OpenAI、Anthropic、Googleといった企業は、訓練コード、パラメータ数、データセットサイズを開示しなくなっている。報告書の共著者である南カリフォルニア大学のコンピュータ科学者、ヨランダ・ギル氏は「モデルの動作を予測することについて、私たちは多くのことを知らない」と述べている。この透明性の欠如により、独立した研究者がAIモデルをより安全にする方法を研究することが困難になっているという。
AIモデルは驚異的なスピードで進化している
開発が頭打ちになるという予測に反して、AIモデルは引き続き改善を続けている。ある指標によると、PhD レベルの科学、数学、言語理解を測定するテストにおいて、人間の専門家の性能に匹敵するか、それを上回る性能を発揮している。ソフトウェアエンジニアリングベンチマークである「SWE-bench Verified」では、トップスコアが2024年の約60%から2025年ほぼ100%に跳ね上がった。2025年には、AIシステムが独自に天気予報を生成した。
「この技術が引き続き改善し、全く頭打ちになっていないことに私は驚いている」とギル氏は述べている。
しかし、AIは依然として多くの分野で課題を抱えている。モデルは物理的な世界を経験するのではなく、膨大なテキストと画像を処理することで学習するため、AIは「ギザギザの知性(jagged intelligence)」を示す。ロボットはまだ初期段階にあり、家事タスクの12%でのみ成功している。自動運転車はさらに進んでおり、Waymoは現在街中を走行している。
