MiniMax、M3で新Sparse Attention導入し長文応答を最大15.6倍高速化へ

2026年5月28日

MiniMaxは27日、同社の言語モデル「M2」シリーズの技術報告書を公開し、あわせて次期「MiniMax M3」で新しいスパース注意（Sparse Attention）方式を採用すると予告しました。
報告書と発表によると、M3は「MiniMax Sparse Attention（MSA）」と呼ばれる方式で、通常のGQAバックボーンを維持しつつ、実際のキー・バリュー（KV）に対してブロック単位で選択処理を行うとしています。
同社はこの設計により、プレフィリング（入力を読む段階）で9.7倍の高速化、さらにデコード（応答を生成する段階）では最大15.6倍の速度向上を、シーケンス長100万トークンで達成できる見込みだと説明しました。
M2では、効率化を狙うサブ二次アテンションを検証したものの、長文での推論（マルチホップ）能力が低下したことなどから採用しなかった経緯があります。
一方M3では、サブ二次計算の課題であった精度低下やプレフィックスキャッシュ対応の難しさ、推論モジュールとの整合性をMSAで解消し、長文エージェントの経済的運用を可能にするとしています。
またMiniMaxは、M2シリーズがエージェント向けの設計と強化学習基盤「Forge」を通じて進化してきたことも報告しています。
今回のM3方針は、計算量のボトルネックを突破しつつ、長い文脈での高精度な応答を狙うものです。

参照元：2026/05/28 「MiniMax teases upcoming M3 model with new sparse attention mechanism and 15.6X long-context response speed boost」 https://venturebeat.com/technology/minimax-teases-upcoming-m3-model-with-new-sparse-attention-mechanism-and-15-6x-response-speed-boost