Sakana AI、低遅延の音声対話にLLM知識をリアルタイム注入するKAMEを発表

Sakana AIは、低遅延の音声対話と高い知識性能の両立を目指したKAME(Knowledge-Access Model Extension)を発表しました。
同社は、音声から音声へ即答する直接型S2Sは速い一方で推論や事実知識が浅くなりやすいこと、ASRで文字化してLLMで応答するカスケード型は知識品質が高い反面、ユーザー発話完了まで待つため遅延が大きいことを課題として挙げました。
KAMEは、フロントエンドのS2SとバックエンドのLLMを非同期に並列動作させます。
フロントエンドはMoshi系の音声生成をトークン周期(約80ミリ秒)で開始し、バックエンドはSTTが作る途中の文字起こしをもとにLLMが候補応答(oracle)をストリーミングします。
新しいoracleが届くたびにS2Sは応答の軌道修正を行い、会話中により正確な内容へ更新できる仕組みです。
学習では自然データにoracleがない問題を、シミュレーションLLMでoracle列を段階的に生成するSimulated Oracle Augmentationで解決しました。
評価では、音声合成したMT-Benchの一部カテゴリでMoshiが平均2.05だったのに対し、バックエンドにgpt-4.1を用いたKAMEは6.43、claude-opus-4-1では6.23となりました。
一方、カスケード型Unmuteは平均7.70ですが、中央値遅延は2.1秒でした。
KAMEはバックエンドをgpt-4.1-nanoで学習済みでも、推論時にLLMを差し替えて再学習なしで動作するとしています。
同社は、音声を先に話し始めることによる遅延コストを抑えつつ、カスケードに近い品質を狙えると説明しています。

参照元:2026/05/03 「Sakana AI Introduces KAME: A Tandem Speech-to-Speech Architecture That Injects LLM Knowledge in Real Time」 https://www.marktechpost.com/2026/05/03/sakana-ai-introduces-kame-a-tandem-speech-to-speech-architecture-that-injects-llm-knowledge-in-real-time/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

悩み相談をするなら、どちらに打ち明けたいですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/04
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次