Qwenが身体性AI3モデル「RobotSuite」を公開、操作・動画世界モデル・ナビに対応

2026年6月17日

Qwenチームは、身体性（Embodied）AIの基盤モデル3種を「Qwen-Robot-Suite」として公開しました。
3モデルはそれぞれQwen-RobotManip、Qwen-RobotWorld、Qwen-RobotNavで、視覚言語バックボーンを共通基盤にしつつ課題ごとに設計されています。
Qwen-RobotManipはQwen3.5-4B上で動くVLAモデルで、カメラ映像と言語指示から連続的なロボット行動を出力します。
同モデルはロボット間で異なる状態・行動表現を統一するため、80次元の標準化アクション表現やカメラ座標でのデルタ姿勢、実行履歴に基づく文脈適応を組み込みました。
また約3万8100時間の操作データをオープンデータと人の動画から構築したとしています。
Qwen-RobotWorldは言語条件付きの動画世界モデルで、現在の観測から将来の映像を予測します。
言語を統一的な行動インターフェースとして用い、60層の二重ストリームMMDiTと、凍結したQwen2.5-VLエンコーダを組み合わせたとしています。
Qwen-RobotNavはQwen3-VLを基盤にしたナビゲーションモデルで、観測文脈化として多タスク移動を扱い、外部制御可能なインターフェースを提示します。
タスクを8つのウェイポイント（位置と方位）予測に定式化し、視覚トークン量や時間減衰などのパラメータを調整できる仕組みです。
2モデル（RobotManipとRobotNav）はGitHubで公開し、RobotWorldは研究論文として提示されています。
各モデルは複数ベンチマークで上位成績を報告し、Qwen-RobotSuiteとしてロボット操作、動画世界モデリング、移動の基盤を広くカバーするとしています。

参照元：2026/06/17 「Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation」 https://www.marktechpost.com/2026/06/16/meet-qwen-robotsuite-three-embodied-ai-models-for-vla-manipulation-video-world-modeling-and-navigation/