生成AIAnthropicGoogleOpenAI研究

最高性能のAIモデルも複雑なグラフでは性能が半減、新ベンチマーク調査で判明

速報2026.04.19 09:31

中国の大学研究チームが開発した新ベンチマーク「RealChart2Code」は、複雑な可視化タスクでAIモデルの性能を評価。最高性能の商用モデルでも、単純なテストと比べ性能がほぼ半減することが明らかになった。

RealChart2Codeは3つのタスクでモデルをテストする。「チャート複製（Chart Replication）」では、モデルが画像のみからビジュアライゼーションコードを生成する必要がある。「チャート再現（Chart Reproduction）」では生データを追加し、実データソースから正しいコードを生成できるかを確認する。3番目のタスク「チャート改善（Chart Refinement）」は実際の開発ワークフローをシミュレートし、モデルが不具合のあるコードを受け取ってユーザーとの対話を通じて修正する。

このベンチマークには実際のKaggleデータセットから構築された2,800件以上のテストケースが含まれている。Plot2CodeやChartMimicなどのこれまでのベンチマークは主に合成データと単純なグラフに依存していた。RealChart2Codeはさらに進み、複雑な複合レイアウト、50種類の異なるグラフタイプ、大規模な生ファイルをモデルに投じる。研究者らは1,036個の厳選されたデータセットから、約8億6,000万行のデータを集めた。

AIモデルは単純なグラフを画像から再現することは問題なくできる。しかし、実データに基づく複雑で複数部分の可視化に関するタスクになると、最も高性能なモデルでさえ限界に直面する。これは複数の中国の大学の研究チームによる新しいベンチマーク「RealChart2Code」から明らかになった主な結論である。

RealChart2Codeベンチマークは、実世界のデータセットから構築された複雑な可視化に関して14の主要AIモデルをテストする。最高性能の商用モデルでさえ、より単純なテストと比べてほぼ50%の性能低下を示す。

この論文によると、RealChart2Codeは大規模な生データセットからのコード生成と会話形式での反復的な改善を体系的に評価する最初のベンチマークである。

商用モデルは主導するもまだ不十分

研究チームは合計14のモデルをテストした。5つの商用モデルと9つのオープンウェイト（open-weight）モデルである。商用グループの中でも、Anthropicの「Claude 4.5 Opus」が平均スコア8.2（8つのビジュアルアキュラシー基準をカバーするスケール上）で最高スコアを獲得した。GoogleのGemini 3 Pro Previewが8.1で直後に続き、基本的なグラフ複製で9.0のスコアを獲得して首位となった。OpenAIのGPT-5.1は5.4で大きく遅れをとった。

オープンウェイトモデルはそれよりずっと悪い成績だった。最高性能のQwen3-VL-235BとIntern-VL-3.5-241Bはそれぞれ3.6と3.4のスコアで、最高性能の商用モデルの半分以下であった。テストされた最小モデルの1つであるDeepSeek-VL-7Bは、グラフ複製で9.7%の合格率に達しており、生成されたコードが90%以上のケースで実行さえ失敗することを意味する。

論文の中心的な発見は、研究者らが「複雑性ギャップ（complexity gap）」と呼ぶものである。より単純なベンチマークで高い性能を発揮するモデルが劇的に性能低下するという現象だ。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

LLM生成AIビジネス

最高性能のAIモデルも複雑なグラフでは性能が半減、新ベンチマーク調査で判明

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

iPhoneユーザーが語る：車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦