Moonshot AIと清華大学の研究チームは、LLM推論を大規模に提供する新しい分散アーキテクチャ「PrfaaS」を提案しました。
従来は事前計算(prefill)とデコード(decode)が同一データセンター内で行われることが多く、KVCacheの転送にはRDMA級ネットワークが必要でした。
PrfaaSでは、長文のprefillを計算密度の高い別クラスターで実行し、生成したKVCacheをコモディティEthernetでローカルのPD(prefill-decode)クラスターへ転送します。
研究では内部の1Tパラメータ混成モデルを用いたケーススタディで、同一構成のPDベースラインに比べ提供スループットが54%向上したと報告しました。
また、素朴な異種構成では32%増にとどまったのに対し、PrfaaS-PDはさらに高い改善を示しました。
性能面では、最適なルーティング閾値を設定し、32Kトークン要求のKVCache転送負荷を抑えることで、クロスデータセンターでも帯域逼迫を回避できると説明しています。
さらに、レイヤー単位のprefillパイプライニングや多コネクションTCP、輻輳監視を組み合わせ、遅延とP90のTTFTをそれぞれ50%、64%低減したとしています。
研究チームは、ハイブリッド・アテンションによりKVCacheが小さくなる流れがあり、将来的な文脈長の拡大と圧縮技術の成熟により提案の有効性が高まると見ています。
参照元:2026/04/20 「Moonshot AI and Tsinghua Researchers Propose PrfaaS: A Cross-Datacenter KVCache Architecture that Rethinks How LLMs are Served at Scale」 https://www.marktechpost.com/2026/04/19/moonshot-ai-and-tsinghua-researchers-propose-prfaas-a-cross-datacenter-kvcache-architecture-that-rethinks-how-llms-are-served-at-scale/



コメント