NVIDIAが単一GPUで60秒720pの世界モデルSANA-WMを公開

NVIDIAは、オープンソースの世界モデル「SANA-WM」をNVlabs/SanaのGitHubで公開しました。
このモデルは、入力画像とカメラ軌道から、60秒・720pの動画を生成することを目的としています。
従来の世界モデルは長尺生成で計算量やメモリが膨らみ、多数GPUが必要になる場合がありました。
SANA-WMは、2.6Bパラメータの拡散トランスフォーマ(DiT)をベースに、60秒生成を前提として学習されています。
推論は単一GPUで動作する3種類の方式を用意し、蒸留版ではRTX 5090上で60秒の720pクリップを34秒でノイズ除去できるとしています。
生成品質とカメラ追従性を高めるため、フレーム単位のGated DeltaNet(GDN)とソフトマックス注意を組み合わせています。
また、6自由度カメラ制御には、潜在フレーム向けのUCPEと、原画像フレーム向けのPlücker混合の二つの枝を採用しました。
さらに、長時間の構造アーティファクトを抑える二段階のリファイナーを導入し、3段階のEulerデノイジングで改善する仕組みです。
専用ベンチマークでは、リファイナー込みでカメラ誤差やVBenchスコアを競合より高い水準で示し、8台H100での処理速度はLingBot-World比で36倍と報告されています。
学習は64台のH100で約18.5日かけ、メートルスケールの6DoFポーズ注釈を含む212,975クリップを用いたとしています。

参照元:2026/05/16 「NVIDIA Introduces SANA-WM: A 2.6B-Parameter Open-Source World Model That Generates Minute-Scale 720p Video on a Single GPU」 https://www.marktechpost.com/2026/05/16/nvidia-introduces-sana-wm-a-2-6b-parameter-open-source-world-model-that-generates-minute-scale-720p-video-on-a-single-gpu/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/06/13
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次