AILIBERALMEDIA
NVIDIA、ドキュメント・音声・動画対応のマルチモーダルAI「Nemotron 3 Nano Omni」発表
← 一覧に戻る
Nvidia生成AI音声AI

NVIDIA、ドキュメント・音声・動画対応のマルチモーダルAI「Nemotron 3 Nano Omni」発表

速 報2026.04.29 03:31

NVIDIAが新しいオムニモーダル理解モデル「Nemotron 3 Nano Omni」を発表。ドキュメント分析、画像推論、音声認識、長尺動画理解に対応し、複数のベンチマークで最高精度を達成。従来型と比べスループットが最大9倍、推論速度が2.9倍向上。

NVIDIA Nemotron 3 Nano Omniは、実世界のドキュメント分析、複数画像の推論、自動音声認識、長尺音声動画理解、エージェント型コンピュータ使用、および一般的な推論のために構築された新しいオムニモーダル理解モデルです。

このモデルは、Nemotronマルチモーダルラインを強力なビジョン言語システムからテキスト、画像、動画、音声に対応したより広範なモデルへと拡張しています。

Nemotron 3 Nano Omniは、MMlongbench-DocやOCRBenchV2などの複雑なドキュメントインテリジェンスベンチマークにおいて最高レベルの精度を提供し、WorldSenseやDailyOmniといった動画・音声ベンチマークでも首位を争っています。音声理解ではVoiceBenchで最高精度を達成し、MediaPerfではコスト効率に優れたオープンソース動画理解モデルとして上位にランクされています。

内部的には、Nemotron 3ハイブリッドMamba-TransformerMixture-of-Experts(混合専門家)バックボーンとC-RADIOv4-H視覚エンコーダ、Parakeet-TDT-0.6B-v2音声エンコーダを組み合わせています。アーキテクチャは高密度画像、ドキュメント、動画、マルチモーダル推論向けに設計されています。トレーニング手法は段階的マルチモーダルアライメントとコンテキスト拡張を採用しています。

Nemotron 3 Nano Omniは、マルチモーダルユースケースにおいて他のソリューションと比較して最大9倍高いスループットと2.9倍の単一ストリーム推論速度を実現します。

HuggingFaceではBF16、FP8、NVFP4チェックポイントがダウンロード可能です。

モデルアーキテクチャ、トレーニング手法、データパイプライン、ベンチマークについての詳細情報は、完全なNemotron 3 Nano Omniレポートで確認できます。

Nemotron Nano V2 VLを基盤として開発されたNemotron 3 Nano Omniは、視覚的な大幅な改善を実現し、完全に新しい音声機能と動画・音声機能を追加する一方で、他のオープンウェイトのオムニモデルであるQwen3-Omniを多くの領域で上回る性能を発揮しています。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

  • YouTubeの要約やウェブサイトの分析など、使い方は無限大
  • 最新AIモデルを1つに統合しコストを削減
  • 500万人以上が利用する信頼のブランド
無料で始める
クーポンコードMERLIN20で20%オフ

関連記事

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回
OpenAIAnthropic生成AI

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回

2026.05.27 13:34
眼科医が処方を間違えた眼鏡、AIが解決策を導き出した
生成AILLMビジネス

眼科医が処方を間違えた眼鏡、AIが解決策を導き出した

2026.05.27 13:33
YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入
Google生成AI規制・政策

YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入

2026.05.27 13:33