NVIDIAが3B/8B/14Bの三方式言語モデル「Nemotron-Labs-Diffusion」を公開

2026年5月21日

NVIDIAの研究チームは、三つのデコードモードを1つのアーキテクチャで切り替えて使える言語モデル群「Nemotron-Labs-Diffusion」を公開しました。
同モデルはAR（自己回帰）による左から右の生成に加え、拡散（diffusion）による並列デコード、自分自身で候補を作ってARで検証する自己推測（self-speculation）の3方式に対応します。
パラメータは3B、8B、14Bが用意され、ベース、指示追従（instruct）、視聴覚言語（VLM）版も含まれます。
推論時はモードごとに別の重みや構造変更は不要で、注意の扱いを切り替えて運用します。
速度面では、8Bモデルの自己推測でQwen3-8Bに対しトークン当たりの前向き計算（TPF）で5.99倍を報告し、GB200環境でバッチサイズ1の条件ではQwen3-8B-Eagle3より最大2.4倍のスループット向上を示しました。
精度面では、10タスクの指示評価でARモード平均63.61%に対し、自己推測のLoRA調整版は62.81%と大きな低下は見られないとしています。
学習はAR損失とブロック単位の拡散損失を組み合わせ、係数α=0.3で訓練したとしています。
モデルの入手と運用はMegatron Bridge経由で公開され、Hugging Faceのチェックポイントとして提供されます。

参照元：2026/05/20 「NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B」 https://www.marktechpost.com/2026/05/20/nvidia-ai-releases-nemotron-labs-diffusion-a-tri-mode-language-model-with-6x-tokens-per-forward-over-qwen3-8b/