NVIDIAが新しいオムニモーダル理解モデル「Nemotron 3 Nano Omni」を発表。ドキュメント分析、画像推論、音声認識、長尺動画理解に対応し、複数のベンチマークで最高精度を達成。従来型と比べスループットが最大9倍、推論速度が2.9倍向上。
NVIDIA Nemotron 3 Nano Omniは、実世界のドキュメント分析、複数画像の推論、自動音声認識、長尺音声動画理解、エージェント型コンピュータ使用、および一般的な推論のために構築された新しいオムニモーダル理解モデルです。
このモデルは、Nemotronマルチモーダルラインを強力なビジョン言語システムからテキスト、画像、動画、音声に対応したより広範なモデルへと拡張しています。
Nemotron 3 Nano Omniは、MMlongbench-DocやOCRBenchV2などの複雑なドキュメントインテリジェンスベンチマークにおいて最高レベルの精度を提供し、WorldSenseやDailyOmniといった動画・音声ベンチマークでも首位を争っています。音声理解ではVoiceBenchで最高精度を達成し、MediaPerfではコスト効率に優れたオープンソース動画理解モデルとして上位にランクされています。
内部的には、Nemotron 3ハイブリッドMamba-TransformerMixture-of-Experts(混合専門家)バックボーンとC-RADIOv4-H視覚エンコーダ、Parakeet-TDT-0.6B-v2音声エンコーダを組み合わせています。アーキテクチャは高密度画像、ドキュメント、動画、マルチモーダル推論向けに設計されています。トレーニング手法は段階的マルチモーダルアライメントとコンテキスト拡張を採用しています。
Nemotron 3 Nano Omniは、マルチモーダルユースケースにおいて他のソリューションと比較して最大9倍高いスループットと2.9倍の単一ストリーム推論速度を実現します。
HuggingFaceではBF16、FP8、NVFP4チェックポイントがダウンロード可能です。
モデルアーキテクチャ、トレーニング手法、データパイプライン、ベンチマークについての詳細情報は、完全なNemotron 3 Nano Omniレポートで確認できます。
Nemotron Nano V2 VLを基盤として開発されたNemotron 3 Nano Omniは、視覚的な大幅な改善を実現し、完全に新しい音声機能と動画・音声機能を追加する一方で、他のオープンウェイトのオムニモデルであるQwen3-Omniを多くの領域で上回る性能を発揮しています。
