Liquid AIがオンデバイスMoE推論モデル「LFM2.5-8B-A1B」を発表

2026年5月29日

Liquid AIは、オンデバイス向けMixture-of-Experts（MoE）推論モデル「LFM2.5-8B-A1B」をリリースしました。
同モデルは総パラメータ8.3Bを保持しつつ、トークンごとに1.5Bのみを有効化する設計です。
これにより、生成時の計算コストを抑えながら推論を行えるとしています。
モデルは推論専用で、回答の前に明示的な推論（chain of thought）を出力する仕様です。
また、24層構成で、コンテキスト長は131,072トークン、対応言語は9言語としています。
前モデル「LFM2-8B-A1B」からは、コンテキスト窓を32,768から128,000へ拡大し、事前学習トークン数も12Tから38Tへ増やしました。
語彙数は65,536から128,000へ倍増し、非ラテン文字のトークナイズ効率を高めたと報告されています。
ベンチマークでは、AA-Omniscienceの非幻覚率が7.46から63.47へ、IFEvalが79.44から91.84へ向上したとしています。
推論速度はCPUでM5 Maxが253トークン/秒、スマートフォンでは約30トークン/秒、NVIDIA H100 SXM5で18.5Kトークン/秒に達するとしています。
推論基盤としてllama.cpp、MLX、vLLM、SGLangなどのフレームワークに対応し、学習済み重みはLFM1.0ライセンスのもと公開されています。

参照元：2026/05/29 「Liquid AI Releases LFM2.5-8B-A1B: An On-Device MoE Model With 8.3B Total and 1.5B Active Parameters」 https://www.marktechpost.com/2026/05/28/liquid-ai-releases-lfm2-5-8b-a1b-an-on-device-moe-model-with-8-3b-total-and-1-5b-active-parameters/