DeepSeek-V4を公開、圧縮注意で1,000,000トークン長文を低コスト化

2026年4月25日

DeepSeek-AIは、DeepSeek-V4シリーズのプレビュー版を公開しました。
同社は、推論時のコストとメモリー負荷を抑えながら、コンテキスト長を最大100万トークンに対応させることを狙いました。
モデルはMixture-of-Experts（MoE）を採用し、DeepSeek-V4-ProとDeepSeek-V4-Flashの2系統を用意しています。
DeepSeek-V4-Proは総パラメータ1.6兆、1トークンあたり49Bを活性化し、DeepSeek-V4-Flashは総パラメータ2840億、1トークンあたり13Bを活性化します。
両モデルはいずれもネイティブに100万トークンのコンテキスト長に対応し、事前学習にはそれぞれ33Tトークン、32Tトークンを使用しました。
学習済みチェックポイントはHugging Faceで公開されています。
長文で問題になる通常Transformerの二次的な注意計算に対し、DeepSeek-V4はハイブリッド注意としてCompressed Sparse Attention（CSA）とHeavily Compressed Attention（HCA）を層間で組み合わせました。
CSAではKVキャッシュを圧縮して、各クエリが上位kの圧縮KVにのみ注意する仕組みを採用しつつ、直近トークン用のスライディングウィンドウも設けています。
HCAはより強い圧縮で、m’トークンごとのKVを単一エントリに統合し、その表現に密な注意を適用します。
この結果、100万トークン設定でDeepSeek-V4-ProはDeepSeek-V3.2の単一トークン推論FLOPs換算で27%、KVキャッシュ容量で10%に抑えました。
DeepSeek-V4-FlashもFLOPsを10%、KVキャッシュを7%に削減したとしています。
さらに、残差接続をManifold-Constrained Hyper-Connections（mHC）に置き換え、数値安定性を高めました。
最適化では大半のパラメータにMuonオプティマイザを採用し、FP4の量子化を見越した学習をMoEエキスパートとCSAのLightning IndexerのQK経路に適用したとしています。
ポストトレーニングでは、従来の混合RLの代わりにOn-Policy Distillationを行い、10以上の専門家モデルから単一の学生モデルへ蒸留します。
同社は、長文ベンチマークでのスコアも報告しており、100万トークン系評価で既存モデルを上回る結果があるとしています。

参照元：2026/04/25 「DeepSeek AI Releases DeepSeek-V4: Compressed Sparse Attention and Heavily Compressed Attention Enable One-Million-Token Contexts」 https://www.marktechpost.com/2026/04/24/deepseek-ai-releases-deepseek-v4-compressed-sparse-attention-and-heavily-compressed-attention-enable-one-million-token-contexts/

ぜひコメントを添えてシェアお願いします。