Together AI、長文LLM向けKVキャッシュを2ビット化するOSCARを公開

Together AIは、長文LLMの推論で主要なコストとなるKVキャッシュを2ビット(INT2)化する手法「OSCAR」をオープンソースとして公開しました。
OSCARは、INT2量子化が精度を崩しやすい原因である外れ値チャネルと、回転がデータ非依存になる問題に対処するため、注意機構の統計に基づく回転を導入します。
具体的には、キーではクエリの共分散により回転基底を決め、値ではアテンションスコアで重み付けされた値の共分散に基づいて回転基底を算出します。
さらに、Walsh-Hadamard変換とチャネルの並べ替えを組み合わせ、重要度の高い方向へ量子化誤差が適切に広がるよう設計されています。
OSCARはSGLangの本番推論スタックに統合され、paged attentionとの互換性を保ったままINT2 KVキャッシュモードで利用できます。
評価では、2.28ビット相当でBF16平均との差が最大でも3.78ポイントに収まり、KVメモリは約8倍削減、100Kトークンではデコード速度が最大3倍向上したとされています。
また、回転行列とクリップ閾値はRotationZooで事前計算済みとして提供され、再キャリブレーションなしで対応モデルに適用できるとしています。

参照元:2026/05/26 「Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving」 https://www.marktechpost.com/2026/05/25/together-ai-open-sources-oscar-an-attention-aware-2-bit-kv-cache-quantization-system-for-long-context-llm-serving/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/31
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次