JD.comの研究者らは、推論モデルの学習に必要な計算資源が不足しがちな企業向けに、新たな学習パラダイム「RLSD(Reinforcement Learning with Verifiable Rewards with Self-Distillation)」を提案しました。
RLSDは、環境からの検証可能な報酬で学習の方向性を決め、自己蒸留では推論過程の各トークンに対する細かな加点・減点の大きさを割り当てる仕組みです。
従来の強化学習では最終結果に対する二値報酬のため中間手順への信用配分が乏しく、自己蒸留型では隠れた正解手順に引きずられる「特権情報漏えい」が課題でした。
研究ではQwen3-VL-8Bを用い、視覚推論ベンチマーク5種でRLSDが平均精度56.18%を達成し、既存手法より上回ったと報告しています。
また、200ステップでGRPOの400ステップ相当を上回り、教師モデルの追加計算は各応答につき1回の順伝播にとどまると説明しました。
さらに、推論の失敗点だけにペナルティを集中できるため、企業の実運用で誤った前提を部分的に修正しやすいとしています。
導入には、コンパイラや数学チェッカー、SQL実行、スキーマ検証などの検証可能な報酬が必要で、最終回答のみでも適用可能だとしています。
参照元:2026/04/29 「How to build custom reasoning agents with a fraction of the compute」 https://venturebeat.com/orchestration/how-to-build-custom-reasoning-agents-with-a-fraction-of-the-compute
この記事へのリアクション
このニュースをどう受け止めましたか?




コメント