Zyphra、ZAYA1-8Bを拡散モデルへ変換しAMDで最大7.7倍高速化

2026年5月16日

Zyphraは、ZAYA1モデル群の一環として「ZAYA1-8B-Diffusion-Preview」を公開しました。これは拡散言語モデルの初期成果として、既存の自己回帰LLMを離散拡散モデルへ変換したものです。
同社は、自己回帰生成ではトークンごとにKVキャッシュを読み出す必要があり、GPUがメモリ転送待ちとなる「メモリ帯域ボトルネック」が起きると説明しています。
拡散ではブロック内の複数トークンを同時にドラフトし、同一ブロックでKVキャッシュを共有するため、計算主体に切り替わるとしており、ZAYA1-8B-Diffusion-Previewはマスクからトークンへの単一ステップ変換でブロック生成を行います。
モデルはTiDARレシピに基づき、ZAYA1-8B-baseのチェックポイントを中間学習で拡散変換し、その後128kまでの文脈拡張と拡散モードのSFTを実施しました。
推論では16トークンを同時に生成し、受理判定により速度と品質のトレードオフが選べる2種類のサンプラーを用意したとしています。
損失が出ないとする「lossless diffusion sampler」では4.6倍の高速化、品質への影響を許容する「logit-mixing sampler」では最大7.7倍の高速化を報告しました。
また同社は、RL学習前の中間チェックポイントのため評価はpass@指標で示したと注意しています。
Zyphraによれば、拡散による推論高速化は、オンポリシーRLで必要なロールアウトのコストを下げ、RLや推論時の計算スケーリングを実現しやすくする狙いがあります。

参照元：2026/05/16 「Zyphra Releases ZAYA1-8B-Diffusion-Preview: The First MoE Diffusion Model Converted From an Autoregressive LLM With Up to 7.7x Speedup」 https://www.marktechpost.com/2026/05/15/zyphra-releases-zaya1-8b-diffusion-preview-the-first-moe-diffusion-model-converted-from-an-autoregressive-llm-with-up-to-7-7x-speedup/