Zyphra、ZAYA1-8Bを拡散モデルへ変換しAMDで最大7.7倍高速化

Zyphraは、ZAYA1モデル群の一環として「ZAYA1-8B-Diffusion-Preview」を公開しました。これは拡散言語モデルの初期成果として、既存の自己回帰LLMを離散拡散モデルへ変換したものです。
同社は、自己回帰生成ではトークンごとにKVキャッシュを読み出す必要があり、GPUがメモリ転送待ちとなる「メモリ帯域ボトルネック」が起きると説明しています。
拡散ではブロック内の複数トークンを同時にドラフトし、同一ブロックでKVキャッシュを共有するため、計算主体に切り替わるとしており、ZAYA1-8B-Diffusion-Previewはマスクからトークンへの単一ステップ変換でブロック生成を行います。
モデルはTiDARレシピに基づき、ZAYA1-8B-baseのチェックポイントを中間学習で拡散変換し、その後128kまでの文脈拡張と拡散モードのSFTを実施しました。
推論では16トークンを同時に生成し、受理判定により速度と品質のトレードオフが選べる2種類のサンプラーを用意したとしています。
損失が出ないとする「lossless diffusion sampler」では4.6倍の高速化、品質への影響を許容する「logit-mixing sampler」では最大7.7倍の高速化を報告しました。
また同社は、RL学習前の中間チェックポイントのため評価はpass@指標で示したと注意しています。
Zyphraによれば、拡散による推論高速化は、オンポリシーRLで必要なロールアウトのコストを下げ、RLや推論時の計算スケーリングを実現しやすくする狙いがあります。

参照元:2026/05/16 「Zyphra Releases ZAYA1-8B-Diffusion-Preview: The First MoE Diffusion Model Converted From an Autoregressive LLM With Up to 7.7x Speedup」 https://www.marktechpost.com/2026/05/15/zyphra-releases-zaya1-8b-diffusion-preview-the-first-moe-diffusion-model-converted-from-an-autoregressive-llm-with-up-to-7-7x-speedup/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/31
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次