Nvidia生成AI音声AI

NVIDIA、ドキュメント・音声・動画対応のマルチモーダルAI「Nemotron 3 Nano Omni」発表

速報2026.04.29 03:31

NVIDIAが新しいオムニモーダル理解モデル「Nemotron 3 Nano Omni」を発表。ドキュメント分析、画像推論、音声認識、長尺動画理解に対応し、複数のベンチマークで最高精度を達成。従来型と比べスループットが最大9倍、推論速度が2.9倍向上。

NVIDIA Nemotron 3 Nano Omniは、実世界のドキュメント分析、複数画像の推論、自動音声認識、長尺音声動画理解、エージェント型コンピュータ使用、および一般的な推論のために構築された新しいオムニモーダル理解モデルです。

このモデルは、Nemotronマルチモーダルラインを強力なビジョン言語システムからテキスト、画像、動画、音声に対応したより広範なモデルへと拡張しています。

Nemotron 3 Nano Omniは、MMlongbench-DocやOCRBenchV2などの複雑なドキュメントインテリジェンスベンチマークにおいて最高レベルの精度を提供し、WorldSenseやDailyOmniといった動画・音声ベンチマークでも首位を争っています。音声理解ではVoiceBenchで最高精度を達成し、MediaPerfではコスト効率に優れたオープンソース動画理解モデルとして上位にランクされています。

内部的には、Nemotron 3ハイブリッドMamba-TransformerMixture-of-Experts（混合専門家）バックボーンとC-RADIOv4-H視覚エンコーダ、Parakeet-TDT-0.6B-v2音声エンコーダを組み合わせています。アーキテクチャは高密度画像、ドキュメント、動画、マルチモーダル推論向けに設計されています。トレーニング手法は段階的マルチモーダルアライメントとコンテキスト拡張を採用しています。

Nemotron 3 Nano Omniは、マルチモーダルユースケースにおいて他のソリューションと比較して最大9倍高いスループットと2.9倍の単一ストリーム推論速度を実現します。

HuggingFaceではBF16、FP8、NVFP4チェックポイントがダウンロード可能です。

モデルアーキテクチャ、トレーニング手法、データパイプライン、ベンチマークについての詳細情報は、完全なNemotron 3 Nano Omniレポートで確認できます。

Nemotron Nano V2 VLを基盤として開発されたNemotron 3 Nano Omniは、視覚的な大幅な改善を実現し、完全に新しい音声機能と動画・音声機能を追加する一方で、他のオープンウェイトのオムニモデルであるQwen3-Omniを多くの領域で上回る性能を発揮しています。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

LLM生成AIビジネス

NVIDIA、ドキュメント・音声・動画対応のマルチモーダルAI「Nemotron 3 Nano Omni」発表

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

iPhoneユーザーが語る：車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦