LightSeek Foundationの研究チームは、エージェント型のLLMワークロード向けに設計したオープンソース推論エンジン「TokenSpeed」をMITライセンスでリリースしました。
TokenSpeedは現在プレビュー提供の位置づけで、Claude CodeやCodex、Cursorのようなコーディングエージェントで高まる推論効率の課題に対応する狙いです。
エージェント推論では会話が長くなり、1ユーザー当たりの応答性(TPS)とGPUあたりの処理量(TPM)の両立が難しくなるため、TokenSpeedは両指標の最適化を目標にしています。
設計は5つの要素で構成され、並列化を支えるコンパイラ連携、C++の有限状態機械による安全なKVキャッシュ管理、Pythonによる実行面、拡張可能なカーネル層、低オーバーヘッドなSMG統合を備えます。
NVIDIA B200上でTensorRT-LLMと比較した評価では、Kimi K2.5で最小遅延が約9%改善し、スループットは100TPS/ユーザー付近で約11%向上したとされています。
またTokenSpeedのMLAカーネルは、デコード段階で推論遅延を大きく削減し、vLLMに採用されたと報告されています。
なお検証は非分散(非disaggregated)構成で、分散対応は今後のフォローとしているため、別途情報が示される見通しです。
TokenSpeedの技術詳細とGitHubリポジトリは公開されています。
参照元:2026/05/08 「LightSeek Foundation Releases TokenSpeed, an Open-Source LLM Inference Engine Targeting TensorRT-LLM-Level Performance for Agentic Workloads」 https://www.marktechpost.com/2026/05/07/lightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads/
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント