複数の中国大学の研究チームが開発した新ベンチマーク「RealChart2Code」により、複雑な可視化タスクではClaudeなどの最先端AIモデルでも性能が半減することが明らかになった。実データとシンプルなチャートのギャップが浮き彫りになった。
RealChart2Codeは3つのタスクでモデルをテストする。「チャートレプリケーション」では、モデルが画像だけから可視化コード(ビジュアライゼーションコード)を生成する必要がある。「チャート再現」では生データを追加し、実データソースから適切なコードを生成できるかどうかを確認する。3番目のタスク「チャート改善」は実際の開発ワークフローをシミュレートしており、モデルが破損したコードを受け取り、ユーザーとの対話を通じてそれを修正する。
このベンチマークには、実際のKaggleデータセットから構築された2,800を超えるテストケースが含まれている。Plot2CodeやChartMimicなど以前のベンチマークは主に合成データとシンプルな単一チャートに依存していた。RealChart2Codeはさらに進んでおり、複雑な複合レイアウト、50種類のチャートタイプ、大規模な生ファイルをモデルに投げかけている。研究者たちは1,036の厳選されたデータセット(合計約8億6,000万行のデータ)から抽出した。
AIモデルはシンプルなチャートを画像から再現するのに支障はない。しかし、実データに基づく複雑で多部構成の可視化が関わるタスクになると、最も高性能なモデルでさえ壁にぶつかる。これが複数の中国大学の研究チームによる新しいベンチマーク「RealChart2Code」からの主な結論である。
RealChart2Codeベンチマークは、実世界のデータセットから構築された複雑な可視化に関して、14の主要なAIモデルをテストする。トップの独占的モデルでさえ、より単純なテストと比較してほぼ半分の性能を失う。
論文によると、RealChart2Codeは、大規模な生データからのコード生成と、会話形式での反復的な改善を体系的に評価する初めてのベンチマークである。
独占的モデルが先導するが、依然として大きく不足している
研究チームは全14モデルをテストした。5つの独占的モデルと9つのオープンウェイトモデルである。独占的グループの中で、AnthropicのClaude 4.5 Opusは8視覚精度基準をカバーするスケールで平均スコア8.2のトップを記録した。GoogleのGemini 3 Pro Previewは8.1で直後に続き、基本的なチャートレプリケーションでスコア9.0でトップの座を占めた。OpenAIのGPT-5.1は5.4と大きく後れをとった。
オープンウェイトモデルははるかに悪い成績だった。最高のパフォーマー、Qwen3-VL-235BとIntern-VL-3.5-241Bは、それぞれ3.6と3.4のスコアを記録し、先導する独占的モデルの半分未満である。テストされた最小モデルの1つであるDeepSeek-VL-7Bは、チャートレプリケーションで9.7パーセントのパス率に達しており、生成されたコードが90パーセント以上のケースで実行さえできなかったことを意味する。
論文の中核的な発見は、研究者が「複雑性ギャップ」と呼ぶもの。より単純なベンチマークで高スコアを獲得するモデルが、複雑なタスクでは大幅に性能が低下する。
