アリババ、エージェント実行せず環境予測で性能向上 7領域を一体学習

アリババのQwenチームは6月24日、新たな世界モデル「Qwen-AgentWorld」を公開しました。
同プロダクトは、エージェント環境内で行動させるのではなく、エージェントの行為の結果として環境が返す次の状態を予測するように学習した2種類のモデルを提供します。
対象領域はMCP、検索、ターミナル、ソフトウェアエンジニアリング、Android、Web、OSの7分野で、単一のアーキテクチャで扱えるとしています。
アリババは、5月に発表した「Qwen3.7-Max」を中心に自律エージェントへの取り組みを進めており、今回の狙いは、大規模にエージェントを訓練する際に壁になる“本番環境で遭遇しにくい条件”の扱いを改善することです。
研究チームは、現実環境で見つかる結果に依存せず、制御可能なシミュレーター内でエージェントを学習し、現実環境のみで訓練した場合より高い性能を得たと報告しました。
例えばMCPMarkは、狙いを定めた攪乱を加えることで24.6から33.8へ改善したとしています。
検索でも、完全に架空の世界で訓練したエージェントが実タスクへ転移し、WideSearch F1 Itemが34.02から50.31へ伸びたと説明しています。
また、エージェント向け微調整の前に世界モデル学習をウォームアップとして行うと、7つのベンチマークで性能が向上し、学習時に未出の3領域にも効果があったとしています。
一方で論文やベンチマークの作り込みによる過学習リスクを指摘する声も出ており、再現性の確認が必要だという見方も示されました。
Qwen-AgentWorldに関して、35Bモデルの重みとAgentWorldBenchはApache 2.0で公開され、397Bモデルの重みは非公開です。

参照元:2026/06/25 「Alibaba’s model never trained as an agent — and improved agent performance across seven benchmarks」 https://venturebeat.com/technology/alibabas-model-never-trained-as-an-agent-and-improved-agent-performance-across-seven-benchmarks

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/06/25
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次