Nvidiaがテキスト、画像、動画、音声に対応するオープンソースのマルチモーダルモデル「Nemotron 3 Nano Omni」をリリース。特筆すべきは、Qwen、GPT-OSS、Kimi、DeepSeek-OCRなど競合モデルを活用した学習データの構成である。
NvidiaはNemotron 3 Nano Omniという、テキスト、画像、動画、音声に対応するオープンソースのマルチモーダルモデルをリリースした。興味深いのはパフォーマンスだけでなく、Qwen、GPT-OSS、Kimi、DeepSeek-OCRなどのモデルを活用した学習データである。
Nemotron 3 Nano Omniはエージェント型アプリケーション向けに主に設計されたオープンソースのマルチモーダルモデルである。
競合モデルが学習データを形作る方法
ベンチマークは1つの側面だが、学習データについても興味深い詳細がある。これは真のオープンソースリリースでこそ得られる情報である。
合成学習データの大部分は競合モデルから生成されている。画像キャプション、質問応答ペア、推論過程(reasoning traces)はQwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAIのgpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking、DeepSeek-OCRを使用して生成された。またNvidiaはGPT-4oとGemini 3 Flashも活用した。
他のモデルを新しいモデルの学習に使用することは一般的である。
音声データにはNvidiaの独自データセットであるGranaryとSIFT-50Mが含まれ、Qwenの Omni-Captionerからのキャプションも追加されている。強化学習段階では、5段階のパイプラインを25の環境にわたって構築し、視覚的グラウンディング、チャートと文書理解、GUIクリック、自動音声認識などのタスクをカバーしている。
NvidiaはBF16、FP8、NVFP4形式の重み、学習データの一部、Megatron-Bridge上の学習パイプライン、NeMo-RL上の強化学習レシピをリリースしている。このアプローチは他のリリースと異なるものだ。
