Sakana AIは、低遅延の音声対話と高い知識性能の両立を目指したKAME(Knowledge-Access Model Extension)を発表しました。
同社は、音声から音声へ即答する直接型S2Sは速い一方で推論や事実知識が浅くなりやすいこと、ASRで文字化してLLMで応答するカスケード型は知識品質が高い反面、ユーザー発話完了まで待つため遅延が大きいことを課題として挙げました。
KAMEは、フロントエンドのS2SとバックエンドのLLMを非同期に並列動作させます。
フロントエンドはMoshi系の音声生成をトークン周期(約80ミリ秒)で開始し、バックエンドはSTTが作る途中の文字起こしをもとにLLMが候補応答(oracle)をストリーミングします。
新しいoracleが届くたびにS2Sは応答の軌道修正を行い、会話中により正確な内容へ更新できる仕組みです。
学習では自然データにoracleがない問題を、シミュレーションLLMでoracle列を段階的に生成するSimulated Oracle Augmentationで解決しました。
評価では、音声合成したMT-Benchの一部カテゴリでMoshiが平均2.05だったのに対し、バックエンドにgpt-4.1を用いたKAMEは6.43、claude-opus-4-1では6.23となりました。
一方、カスケード型Unmuteは平均7.70ですが、中央値遅延は2.1秒でした。
KAMEはバックエンドをgpt-4.1-nanoで学習済みでも、推論時にLLMを差し替えて再学習なしで動作するとしています。
同社は、音声を先に話し始めることによる遅延コストを抑えつつ、カスケードに近い品質を狙えると説明しています。
参照元:2026/05/03 「Sakana AI Introduces KAME: A Tandem Speech-to-Speech Architecture That Injects LLM Knowledge in Real Time」 https://www.marktechpost.com/2026/05/03/sakana-ai-introduces-kame-a-tandem-speech-to-speech-architecture-that-injects-llm-knowledge-in-real-time/
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント