LightSeek FoundationがMITのLLM推論エンジンTokenSpeedを公開、エージェント用途で高速化

LightSeek Foundationの研究チームは、エージェント型のLLMワークロード向けに設計したオープンソース推論エンジン「TokenSpeed」をMITライセンスでリリースしました。
TokenSpeedは現在プレビュー提供の位置づけで、Claude CodeやCodex、Cursorのようなコーディングエージェントで高まる推論効率の課題に対応する狙いです。
エージェント推論では会話が長くなり、1ユーザー当たりの応答性(TPS)とGPUあたりの処理量(TPM)の両立が難しくなるため、TokenSpeedは両指標の最適化を目標にしています。
設計は5つの要素で構成され、並列化を支えるコンパイラ連携、C++の有限状態機械による安全なKVキャッシュ管理、Pythonによる実行面、拡張可能なカーネル層、低オーバーヘッドなSMG統合を備えます。
NVIDIA B200上でTensorRT-LLMと比較した評価では、Kimi K2.5で最小遅延が約9%改善し、スループットは100TPS/ユーザー付近で約11%向上したとされています。
またTokenSpeedのMLAカーネルは、デコード段階で推論遅延を大きく削減し、vLLMに採用されたと報告されています。
なお検証は非分散(非disaggregated)構成で、分散対応は今後のフォローとしているため、別途情報が示される見通しです。
TokenSpeedの技術詳細とGitHubリポジトリは公開されています。

参照元:2026/05/08 「LightSeek Foundation Releases TokenSpeed, an Open-Source LLM Inference Engine Targeting TensorRT-LLM-Level Performance for Agentic Workloads」 https://www.marktechpost.com/2026/05/07/lightseek-foundation-releases-tokenspeed-an-open-source-llm-inference-engine-targeting-tensorrt-llm-level-performance-for-agentic-workloads/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/09
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次