Moonshot AIと清華大がPrfaaS提案、長文事前計算を別拠点へ分離

Moonshot AIと清華大学の研究チームは、LLM推論を大規模に提供する新しい分散アーキテクチャ「PrfaaS」を提案しました。
従来は事前計算(prefill)とデコード(decode)が同一データセンター内で行われることが多く、KVCacheの転送にはRDMA級ネットワークが必要でした。
PrfaaSでは、長文のprefillを計算密度の高い別クラスターで実行し、生成したKVCacheをコモディティEthernetでローカルのPD(prefill-decode)クラスターへ転送します。
研究では内部の1Tパラメータ混成モデルを用いたケーススタディで、同一構成のPDベースラインに比べ提供スループットが54%向上したと報告しました。
また、素朴な異種構成では32%増にとどまったのに対し、PrfaaS-PDはさらに高い改善を示しました。
性能面では、最適なルーティング閾値を設定し、32Kトークン要求のKVCache転送負荷を抑えることで、クロスデータセンターでも帯域逼迫を回避できると説明しています。
さらに、レイヤー単位のprefillパイプライニングや多コネクションTCP、輻輳監視を組み合わせ、遅延とP90のTTFTをそれぞれ50%、64%低減したとしています。
研究チームは、ハイブリッド・アテンションによりKVCacheが小さくなる流れがあり、将来的な文脈長の拡大と圧縮技術の成熟により提案の有効性が高まると見ています。

参照元:2026/04/20 「Moonshot AI and Tsinghua Researchers Propose PrfaaS: A Cross-Datacenter KVCache Architecture that Rethinks How LLMs are Served at Scale」 https://www.marktechpost.com/2026/04/19/moonshot-ai-and-tsinghua-researchers-propose-prfaas-a-cross-datacenter-kvcache-architecture-that-rethinks-how-llms-are-served-at-scale/

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIによって富が集中する代わりに「ベーシックインカム」を導入することに賛成ですか?

回答者数:2人 投票期間:2026/04/16〜2026/04/22
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次