Qwenが身体性AI3モデル「RobotSuite」を公開、操作・動画世界モデル・ナビに対応

Qwenチームは、身体性(Embodied)AIの基盤モデル3種を「Qwen-Robot-Suite」として公開しました。
3モデルはそれぞれQwen-RobotManip、Qwen-RobotWorld、Qwen-RobotNavで、視覚言語バックボーンを共通基盤にしつつ課題ごとに設計されています。
Qwen-RobotManipはQwen3.5-4B上で動くVLAモデルで、カメラ映像と言語指示から連続的なロボット行動を出力します。
同モデルはロボット間で異なる状態・行動表現を統一するため、80次元の標準化アクション表現やカメラ座標でのデルタ姿勢、実行履歴に基づく文脈適応を組み込みました。
また約3万8100時間の操作データをオープンデータと人の動画から構築したとしています。
Qwen-RobotWorldは言語条件付きの動画世界モデルで、現在の観測から将来の映像を予測します。
言語を統一的な行動インターフェースとして用い、60層の二重ストリームMMDiTと、凍結したQwen2.5-VLエンコーダを組み合わせたとしています。
Qwen-RobotNavはQwen3-VLを基盤にしたナビゲーションモデルで、観測文脈化として多タスク移動を扱い、外部制御可能なインターフェースを提示します。
タスクを8つのウェイポイント(位置と方位)予測に定式化し、視覚トークン量や時間減衰などのパラメータを調整できる仕組みです。
2モデル(RobotManipとRobotNav)はGitHubで公開し、RobotWorldは研究論文として提示されています。
各モデルは複数ベンチマークで上位成績を報告し、Qwen-RobotSuiteとしてロボット操作、動画世界モデリング、移動の基盤を広くカバーするとしています。

参照元:2026/06/17 「Meet Qwen-RobotSuite: Three Embodied AI Models for VLA Manipulation, Video World Modeling, and Navigation」 https://www.marktechpost.com/2026/06/16/meet-qwen-robotsuite-three-embodied-ai-models-for-vla-manipulation-video-world-modeling-and-navigation/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIはあなたの仕事を「奪う」存在?それとも「助ける」存在?

回答者数:2人 投票期間:2026/04/16〜2026/06/17
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次