JD.comらが少ない計算量で推論エージェントを学習する手法RLSDを提案

JD.comの研究者らは、推論モデルの学習に必要な計算資源が不足しがちな企業向けに、新たな学習パラダイム「RLSD(Reinforcement Learning with Verifiable Rewards with Self-Distillation)」を提案しました。
RLSDは、環境からの検証可能な報酬で学習の方向性を決め、自己蒸留では推論過程の各トークンに対する細かな加点・減点の大きさを割り当てる仕組みです。
従来の強化学習では最終結果に対する二値報酬のため中間手順への信用配分が乏しく、自己蒸留型では隠れた正解手順に引きずられる「特権情報漏えい」が課題でした。
研究ではQwen3-VL-8Bを用い、視覚推論ベンチマーク5種でRLSDが平均精度56.18%を達成し、既存手法より上回ったと報告しています。
また、200ステップでGRPOの400ステップ相当を上回り、教師モデルの追加計算は各応答につき1回の順伝播にとどまると説明しました。
さらに、推論の失敗点だけにペナルティを集中できるため、企業の実運用で誤った前提を部分的に修正しやすいとしています。
導入には、コンパイラや数学チェッカー、SQL実行、スキーマ検証などの検証可能な報酬が必要で、最終回答のみでも適用可能だとしています。

参照元:2026/04/29 「How to build custom reasoning agents with a fraction of the compute」 https://venturebeat.com/orchestration/how-to-build-custom-reasoning-agents-with-a-fraction-of-the-compute

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIによって富が集中する代わりに「ベーシックインカム」を導入することに賛成ですか?

回答者数:2人 投票期間:2026/04/16〜2026/04/29
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次