複数の中国大学の研究チームが開発した「RealChart2Code」ベンチマークでは、複雑な可視化タスクにおいて、最高性能のAIモデルでさえシンプルなテストと比べて約50%の性能低下を示すことが明らかになった。
RealChart2Codeは3つのタスクでモデルをテストします。「チャート複製(Chart Replication)」では、モデルが画像だけから可視化コードを生成する必要があります。「チャート再現(Chart Reproduction)」は生データを追加し、実データソースから正しいコードを生成できるかどうかを確認します。3番目のタスク「チャート改善(Chart Refinement)」は実際の開発ワークフローをシミュレートします。モデルは不完全なコードを受け取り、ユーザーとの対話を通じてそれを修正する必要があります。
ベンチマークには実際のKaggleデータセットから構築された2,800件以上のテストケースが含まれています。Plot2CodeやChartMimicなどの従来のベンチマークは主に合成データとシンプルな単一チャートに依存していました。RealChart2Codeはそれを超え、複雑な複合レイアウト、50種類異なるチャートタイプ、大規模な生データファイルをモデルに投げかけます。研究者たちは合計約8億6,000万行のデータを含む1,036個のキュレーションされたデータセットから抽出しました。
AIモデルは画像からシンプルなチャートを再現することは難しくありません。しかし、タスクが実データに基づいた複雑で多部構成の可視化を含む場合、最も性能の高いモデルでさえ壁にぶつかります。これが複数の中国大学の研究チームによる新しいベンチマーク「RealChart2Code」の知見です。
RealChart2Codeベンチマークは、実世界のデータセットから構築された複雑な可視化について、14個の主要なAIモデルをテストしました。トップの独占的モデルでさえ、より単純なテストと比較して性能の約50%を失っています。
ペーパーによると、RealChart2Codeは大規模な生データセットからのコード生成と会話形式での反復的改善を体系的に評価する最初のベンチマークです。
独占的モデルがリードするも、依然として大きな課題が残る
チームは合計14個のモデルをテストしました:5個の独占的モデルと9個のオープンウェイトモデルです。独占的グループの中では、AnthropicのClaude 4.5 Opusが平均スコア8.2(8つの視覚精度基準をカバーするスケール)でトップとなりました。GoogleのGemini 3 Pro Previewが8.1で直後に続き、基本的なチャート複製で9.0の最高スコアを獲得しました。OpenAIのGPT-5.1は5.4で大きく後れを取りました。
オープンウェイトモデルの性能は大幅に低下しました。最高性能者であるQwen3-VL-235BとIntern-VL-3.5-241Bはそれぞれ3.6と3.4のスコアを記録し、リード独占的モデルの50%未満です。テストされた最も小型のモデルの1つであるDeepSeek-VL-7Bは、チャート複製で9.7%の合格率にとどまり、生成されたコードが90%以上のケースで実行さえ失敗することを意味しています。
ペーパーの中心的な知見は、研究者が「複雑性ギャップ(complexity gap)」と呼ぶものです。より単純なベンチマークで優秀な成績を収めたモデルも、複雑なタスクではその性能が大幅に低下することを示しています。
