AnthropicGoogleOpenAI生成AI研究

最先端AIモデルも複雑なグラフでは性能が半減、新ベンチマーク調査で判明

速報2026.04.19 14:06

複数の中国大学の研究チームが開発した新ベンチマーク「RealChart2Code」により、複雑な可視化タスクではClaudeなどの最先端AIモデルでも性能が半減することが明らかになった。実データとシンプルなチャートのギャップが浮き彫りになった。

RealChart2Codeは3つのタスクでモデルをテストする。「チャートレプリケーション」では、モデルが画像だけから可視化コード（ビジュアライゼーションコード）を生成する必要がある。「チャート再現」では生データを追加し、実データソースから適切なコードを生成できるかどうかを確認する。3番目のタスク「チャート改善」は実際の開発ワークフローをシミュレートしており、モデルが破損したコードを受け取り、ユーザーとの対話を通じてそれを修正する。

このベンチマークには、実際のKaggleデータセットから構築された2,800を超えるテストケースが含まれている。Plot2CodeやChartMimicなど以前のベンチマークは主に合成データとシンプルな単一チャートに依存していた。RealChart2Codeはさらに進んでおり、複雑な複合レイアウト、50種類のチャートタイプ、大規模な生ファイルをモデルに投げかけている。研究者たちは1,036の厳選されたデータセット（合計約8億6,000万行のデータ）から抽出した。

AIモデルはシンプルなチャートを画像から再現するのに支障はない。しかし、実データに基づく複雑で多部構成の可視化が関わるタスクになると、最も高性能なモデルでさえ壁にぶつかる。これが複数の中国大学の研究チームによる新しいベンチマーク「RealChart2Code」からの主な結論である。

RealChart2Codeベンチマークは、実世界のデータセットから構築された複雑な可視化に関して、14の主要なAIモデルをテストする。トップの独占的モデルでさえ、より単純なテストと比較してほぼ半分の性能を失う。

論文によると、RealChart2Codeは、大規模な生データからのコード生成と、会話形式での反復的な改善を体系的に評価する初めてのベンチマークである。

独占的モデルが先導するが、依然として大きく不足している

研究チームは全14モデルをテストした。5つの独占的モデルと9つのオープンウェイトモデルである。独占的グループの中で、AnthropicのClaude 4.5 Opusは8視覚精度基準をカバーするスケールで平均スコア8.2のトップを記録した。GoogleのGemini 3 Pro Previewは8.1で直後に続き、基本的なチャートレプリケーションでスコア9.0でトップの座を占めた。OpenAIのGPT-5.1は5.4と大きく後れをとった。

オープンウェイトモデルははるかに悪い成績だった。最高のパフォーマー、Qwen3-VL-235BとIntern-VL-3.5-241Bは、それぞれ3.6と3.4のスコアを記録し、先導する独占的モデルの半分未満である。テストされた最小モデルの1つであるDeepSeek-VL-7Bは、チャートレプリケーションで9.7パーセントのパス率に達しており、生成されたコードが90パーセント以上のケースで実行さえできなかったことを意味する。

論文の中核的な発見は、研究者が「複雑性ギャップ」と呼ぶもの。より単純なベンチマークで高スコアを獲得するモデルが、複雑なタスクでは大幅に性能が低下する。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

LLM生成AIビジネス

最先端AIモデルも複雑なグラフでは性能が半減、新ベンチマーク調査で判明

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

iPhoneユーザーが語る：車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦