NVIDIAが1本の学習済みで30B・23B・12B推論モデルを切り出し可能に

2026年5月10日

NVIDIAの研究チームは、Nemotron Nano v3を基にした「Star Elastic」というポストトレーニング手法を発表しました。
従来は8Bや30Bなど複数サイズごとに別々の学習と展開が必要でしたが、Star Elasticでは1回の学習で複数のネスト型サブモデルを内包します。
同手法は、30B総パラメータ（活性3.6B）モデルの中に、23B（活性2.8B）と12B（活性2.0B）を入れ子として生成し、追加の微調整なしに単一チェックポイントからゼロショットで切り出せるとしています。
訓練は約160Bトークンの後学習で行い、事前学習を各サイズでやり直す場合に比べてトークン量を360分の1に抑えたと報告しました。
さらに、推論の「考える」段階と「答える」段階で別のネストサブモデルを使う弾性予算制御を採用し、デフォルトのNemotron Nano v3比で精度は最大16%向上、遅延は最大1.9倍低減したとしています。
量子化については、ネスト構造を維持するQuantization-Aware Distillationを適用し、NVFP4では30Bの弾性チェックポイントを18.7GBに圧縮でき、RTX 5080でBF16がメモリ不足となる12B運用も可能だとしました。

参照元：2026/05/10 「NVIDIA AI Releases Star Elastic: One Checkpoint that Contains 30B, 23B, and 12B Reasoning Models with Zero-Shot Slicing」 https://www.marktechpost.com/2026/05/09/nvidia-ai-releases-star-elastic-one-checkpoint-that-contains-30b-23b-and-12b-reasoning-models-with-zero-shot-slicing/