AILIBERALMEDIA
最先端AIモデルも複雑なグラフでは性能が半減、新ベンチマーク調査で判明
← 一覧に戻る
AnthropicGoogleOpenAI生成AI研究

最先端AIモデルも複雑なグラフでは性能が半減、新ベンチマーク調査で判明

速 報2026.04.19 14:06

複数の中国大学の研究チームが開発した新ベンチマーク「RealChart2Code」により、複雑な可視化タスクではClaudeなどの最先端AIモデルでも性能が半減することが明らかになった。実データとシンプルなチャートのギャップが浮き彫りになった。

RealChart2Codeは3つのタスクでモデルをテストする。「チャートレプリケーション」では、モデルが画像だけから可視化コード(ビジュアライゼーションコード)を生成する必要がある。「チャート再現」では生データを追加し、実データソースから適切なコードを生成できるかどうかを確認する。3番目のタスク「チャート改善」は実際の開発ワークフローをシミュレートしており、モデルが破損したコードを受け取り、ユーザーとの対話を通じてそれを修正する。

このベンチマークには、実際のKaggleデータセットから構築された2,800を超えるテストケースが含まれている。Plot2CodeやChartMimicなど以前のベンチマークは主に合成データとシンプルな単一チャートに依存していた。RealChart2Codeはさらに進んでおり、複雑な複合レイアウト、50種類のチャートタイプ、大規模な生ファイルをモデルに投げかけている。研究者たちは1,036の厳選されたデータセット(合計約8億6,000万行のデータ)から抽出した。

AIモデルはシンプルなチャートを画像から再現するのに支障はない。しかし、実データに基づく複雑で多部構成の可視化が関わるタスクになると、最も高性能なモデルでさえ壁にぶつかる。これが複数の中国大学の研究チームによる新しいベンチマーク「RealChart2Code」からの主な結論である。

RealChart2Codeベンチマークは、実世界のデータセットから構築された複雑な可視化に関して、14の主要なAIモデルをテストする。トップの独占的モデルでさえ、より単純なテストと比較してほぼ半分の性能を失う。

論文によると、RealChart2Codeは、大規模な生データからのコード生成と、会話形式での反復的な改善を体系的に評価する初めてのベンチマークである。

独占的モデルが先導するが、依然として大きく不足している

研究チームは全14モデルをテストした。5つの独占的モデルと9つのオープンウェイトモデルである。独占的グループの中で、AnthropicのClaude 4.5 Opusは8視覚精度基準をカバーするスケールで平均スコア8.2のトップを記録した。GoogleのGemini 3 Pro Previewは8.1で直後に続き、基本的なチャートレプリケーションでスコア9.0でトップの座を占めた。OpenAIのGPT-5.1は5.4と大きく後れをとった。

オープンウェイトモデルははるかに悪い成績だった。最高のパフォーマー、Qwen3-VL-235BとIntern-VL-3.5-241Bは、それぞれ3.6と3.4のスコアを記録し、先導する独占的モデルの半分未満である。テストされた最小モデルの1つであるDeepSeek-VL-7Bは、チャートレプリケーションで9.7パーセントのパス率に達しており、生成されたコードが90パーセント以上のケースで実行さえできなかったことを意味する。

論文の中核的な発見は、研究者が「複雑性ギャップ」と呼ぶもの。より単純なベンチマークで高スコアを獲得するモデルが、複雑なタスクでは大幅に性能が低下する。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

  • YouTubeの要約やウェブサイトの分析など、使い方は無限大
  • 最新AIモデルを1つに統合しコストを削減
  • 500万人以上が利用する信頼のブランド
無料で始める
クーポンコードMERLIN20で20%オフ

関連記事

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回
OpenAIAnthropic生成AI

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回

2026.05.27 13:34
眼科医が処方を間違えた眼鏡、AIが解決策を導き出した
生成AILLMビジネス

眼科医が処方を間違えた眼鏡、AIが解決策を導き出した

2026.05.27 13:33
YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入
Google生成AI規制・政策

YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入

2026.05.27 13:33