XiaomiのMiMoチームは、TileRTシステムグループと共同で「MiMo-V2.5-Pro-UltraSpeed」を開発し、1兆(1T)パラメータ級モデルのデコード速度を毎秒1000トークン超まで引き上げたと発表しました。
同モードは既存のMiMo-V2.5-Pro向けの高速度サービング手法で、モデルの能力ではなく出力トークン生成の速さを最適化するとしています。
UltraSpeedは、FP4量子化、DFlashによる推測(スペキュレーティブ)デコード、GPU上で実行するTileRTランタイムの3層を一体で設計し、単一の標準8-GPUノードで動作させるのが特徴です。
FP4量子化はMixture-of-Expertsの専門(Experts)部分に選択的に適用し、QATにより品質を維持すると説明しました。
DFlashでは、ドラフトモデルがブロック単位でマスク位置を並列予測し、リジェクション・サンプリングで通常デコードと同一の出力を保つとしています。
TileRTはマイクロ秒単位で演算を回すため、Persistent Engine KernelやWarp Specializationで小規模演算のボトルネックを抑える方針です。
同社はデモで生成が最大1200TPS付近に達したとしており、6月9日から23日までAPIによる限定トライアルを実施するとしています。
価格は標準版の約3倍で、Token Planは非対応です。
参照元:2026/06/09 「Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs」 https://www.marktechpost.com/2026/06/08/xiaomi-mimo-and-tilert-push-a-1-trillion-parameter-model-past-1000-tokens-per-second-on-commodity-gpus/
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント