Nvidia生成AILLM

Nvidiaが最新マルチモーダルモデル「Nemotron 3 Nano Omni」を公開

速報2026.04.29 09:30

Nvidiaがテキスト、画像、動画、音声に対応するオープンソースのマルチモーダルモデル「Nemotron 3 Nano Omni」をリリース。特筆すべきは、Qwen、GPT-OSS、Kimi、DeepSeek-OCRなど競合モデルを活用した学習データの構成である。

NvidiaはNemotron 3 Nano Omniという、テキスト、画像、動画、音声に対応するオープンソースのマルチモーダルモデルをリリースした。興味深いのはパフォーマンスだけでなく、Qwen、GPT-OSS、Kimi、DeepSeek-OCRなどのモデルを活用した学習データである。

Nemotron 3 Nano Omniはエージェント型アプリケーション向けに主に設計されたオープンソースのマルチモーダルモデルである。

競合モデルが学習データを形作る方法

ベンチマークは1つの側面だが、学習データについても興味深い詳細がある。これは真のオープンソースリリースでこそ得られる情報である。

合成学習データの大部分は競合モデルから生成されている。画像キャプション、質問応答ペア、推論過程（reasoning traces）はQwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAIのgpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking、DeepSeek-OCRを使用して生成された。またNvidiaはGPT-4oとGemini 3 Flashも活用した。

他のモデルを新しいモデルの学習に使用することは一般的である。

音声データにはNvidiaの独自データセットであるGranaryとSIFT-50Mが含まれ、Qwenの Omni-Captionerからのキャプションも追加されている。強化学習段階では、5段階のパイプラインを25の環境にわたって構築し、視覚的グラウンディング、チャートと文書理解、GUIクリック、自動音声認識などのタスクをカバーしている。

NvidiaはBF16、FP8、NVFP4形式の重み、学習データの一部、Megatron-Bridge上の学習パイプライン、NeMo-RL上の強化学習レシピをリリースしている。このアプローチは他のリリースと異なるものだ。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

LLM生成AIビジネス

Nvidiaが最新マルチモーダルモデル「Nemotron 3 Nano Omni」を公開

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

iPhoneユーザーが語る：車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦