Xiaomi、1兆パラメータ級を商用GPUで1000TPS超に高速化

XiaomiのMiMoチームは、TileRTシステムグループと共同で「MiMo-V2.5-Pro-UltraSpeed」を開発し、1兆(1T)パラメータ級モデルのデコード速度を毎秒1000トークン超まで引き上げたと発表しました。
同モードは既存のMiMo-V2.5-Pro向けの高速度サービング手法で、モデルの能力ではなく出力トークン生成の速さを最適化するとしています。
UltraSpeedは、FP4量子化、DFlashによる推測(スペキュレーティブ)デコード、GPU上で実行するTileRTランタイムの3層を一体で設計し、単一の標準8-GPUノードで動作させるのが特徴です。
FP4量子化はMixture-of-Expertsの専門(Experts)部分に選択的に適用し、QATにより品質を維持すると説明しました。
DFlashでは、ドラフトモデルがブロック単位でマスク位置を並列予測し、リジェクション・サンプリングで通常デコードと同一の出力を保つとしています。
TileRTはマイクロ秒単位で演算を回すため、Persistent Engine KernelやWarp Specializationで小規模演算のボトルネックを抑える方針です。
同社はデモで生成が最大1200TPS付近に達したとしており、6月9日から23日までAPIによる限定トライアルを実施するとしています。
価格は標準版の約3倍で、Token Planは非対応です。

参照元:2026/06/09 「Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs」 https://www.marktechpost.com/2026/06/08/xiaomi-mimo-and-tilert-push-a-1-trillion-parameter-model-past-1000-tokens-per-second-on-commodity-gpus/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/06/15
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次