Sakana AI 发布 KAME:让语音 AI「边说边想」的级联架构

Sakana AI 在 ICASSP 2026 发表论文,提出 KAME(Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI),实现了语音对话 AI「边说边想」的新范式。 传统的语音对话系统面临一个根本性矛盾:快速的语音到语音(S2S)模型能即时响应,但推理能力有限;而借助强大 LLM 的级联系统虽然更智能,但等待 LLM 完成推理的时间让对话失去了自然的实时感,最终退回到「想好再说」的模式。 KAME 的核心思路是「双轨并行」:前端由轻量级 S2S 模型负责快速响应循环,让 AI 像人类一样「开口说话」;与此同时,后端 LLM 在后台异步运行,不断生成候选响应,并以「神谕信号」的形式实时注入前端。这将 AI 的行为范式从「想好再说」转变为「边说边想」。 该框架的另一大亮点是后端 LLM 完全可插拔。开发者可以根据任务需求自由切换 GPT-4.1、Claude Opus、Gemini 2.5 Flash 等模型,无需改动前端架构。Sakana AI 的实验数据显示,Claude 在推理类任务上表现更优,而 GPT 则在人文类问题上的得分更高。 Sakana AI 已将完整的 KAME 模型开源至 Hugging Face,并公开了论文和博客。这项工作让我们看到,语音 AI 在「快」与「深」之间的权衡并非不可调和——通过架构创新,对话智能的实时性与深度有望同时提升。随着开源社区的跟进,「边说边想」很可能成为下一代语音助手的事实标准。