AILIBERALMEDIA
Nvidiaが最新マルチモーダルモデル「Nemotron 3 Nano Omni」を公開
← 一覧に戻る
Nvidia生成AILLM

Nvidiaが最新マルチモーダルモデル「Nemotron 3 Nano Omni」を公開

速 報2026.04.29 09:30

Nvidiaがテキスト、画像、動画、音声に対応するオープンソースのマルチモーダルモデル「Nemotron 3 Nano Omni」をリリース。特筆すべきは、Qwen、GPT-OSS、Kimi、DeepSeek-OCRなど競合モデルを活用した学習データの構成である。

NvidiaはNemotron 3 Nano Omniという、テキスト、画像、動画、音声に対応するオープンソースのマルチモーダルモデルをリリースした。興味深いのはパフォーマンスだけでなく、Qwen、GPT-OSS、Kimi、DeepSeek-OCRなどのモデルを活用した学習データである。

Nemotron 3 Nano Omniはエージェント型アプリケーション向けに主に設計されたオープンソースのマルチモーダルモデルである。

競合モデルが学習データを形作る方法

ベンチマークは1つの側面だが、学習データについても興味深い詳細がある。これは真のオープンソースリリースでこそ得られる情報である。

合成学習データの大部分は競合モデルから生成されている。画像キャプション、質問応答ペア、推論過程(reasoning traces)はQwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAIのgpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking、DeepSeek-OCRを使用して生成された。またNvidiaはGPT-4oとGemini 3 Flashも活用した。

他のモデルを新しいモデルの学習に使用することは一般的である。

音声データにはNvidiaの独自データセットであるGranaryとSIFT-50Mが含まれ、Qwenの Omni-Captionerからのキャプションも追加されている。強化学習段階では、5段階のパイプラインを25の環境にわたって構築し、視覚的グラウンディング、チャートと文書理解、GUIクリック、自動音声認識などのタスクをカバーしている。

NvidiaはBF16、FP8、NVFP4形式の重み、学習データの一部、Megatron-Bridge上の学習パイプライン、NeMo-RL上の強化学習レシピをリリースしている。このアプローチは他のリリースと異なるものだ。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

  • YouTubeの要約やウェブサイトの分析など、使い方は無限大
  • 最新AIモデルを1つに統合しコストを削減
  • 500万人以上が利用する信頼のブランド
無料で始める
クーポンコードMERLIN20で20%オフ

関連記事

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回
OpenAIAnthropic生成AI

サム・アルトマンとダリオ・アモデイ、AIによる雇用消滅の予測を撤回

2026.05.27 13:34
眼科医が処方を間違えた眼鏡、AIが解決策を導き出した
生成AILLMビジネス

眼科医が処方を間違えた眼鏡、AIが解決策を導き出した

2026.05.27 13:33
YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入
Google生成AI規制・政策

YouTubeがAIラベルを目立つ位置に移動、自動検出機能も導入

2026.05.27 13:33