アリババ、エージェント実行せず環境予測で性能向上　7領域を一体学習

2026年6月25日

アリババのQwenチームは6月24日、新たな世界モデル「Qwen-AgentWorld」を公開しました。
同プロダクトは、エージェント環境内で行動させるのではなく、エージェントの行為の結果として環境が返す次の状態を予測するように学習した2種類のモデルを提供します。
対象領域はMCP、検索、ターミナル、ソフトウェアエンジニアリング、Android、Web、OSの7分野で、単一のアーキテクチャで扱えるとしています。
アリババは、5月に発表した「Qwen3.7-Max」を中心に自律エージェントへの取り組みを進めており、今回の狙いは、大規模にエージェントを訓練する際に壁になる“本番環境で遭遇しにくい条件”の扱いを改善することです。
研究チームは、現実環境で見つかる結果に依存せず、制御可能なシミュレーター内でエージェントを学習し、現実環境のみで訓練した場合より高い性能を得たと報告しました。
例えばMCPMarkは、狙いを定めた攪乱を加えることで24.6から33.8へ改善したとしています。
検索でも、完全に架空の世界で訓練したエージェントが実タスクへ転移し、WideSearch F1 Itemが34.02から50.31へ伸びたと説明しています。
また、エージェント向け微調整の前に世界モデル学習をウォームアップとして行うと、7つのベンチマークで性能が向上し、学習時に未出の3領域にも効果があったとしています。
一方で論文やベンチマークの作り込みによる過学習リスクを指摘する声も出ており、再現性の確認が必要だという見方も示されました。
Qwen-AgentWorldに関して、35Bモデルの重みとAgentWorldBenchはApache 2.0で公開され、397Bモデルの重みは非公開です。

参照元：2026/06/25 「Alibaba’s model never trained as an agent — and improved agent performance across seven benchmarks」 https://venturebeat.com/technology/alibabas-model-never-trained-as-an-agent-and-improved-agent-performance-across-seven-benchmarks