Sakana AI 发布 KAME：让语音 AI「边说边想」的级联架构

Sakana AI 在 ICASSP 2026 发表论文，提出 KAME（Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI），实现了语音对话 AI「边说边想」的新范式。传统的语音对话系统面临一个根本性矛盾：快速的语音到语音（S2S）模型能即时响应，但推理能力有限；而借助强大 LLM 的级联系统虽然更智能，但等待 LLM 完成推理的时间让对话失去了自然的实时感，最终退回到「想好再说」的模式。 KAME 的核心思路是「双轨并行」：前端由轻量级 S2S 模型负责快速响应循环，让 AI 像人类一样「开口说话」；与此同时，后端 LLM 在后台异步运行，不断生成候选响应，并以「神谕信号」的形式实时注入前端。这将 AI 的行为范式从「想好再说」转变为「边说边想」。该框架的另一大亮点是后端 LLM 完全可插拔。开发者可以根据任务需求自由切换 GPT-4.1、Claude Opus、Gemini 2.5 Flash 等模型，无需改动前端架构。Sakana AI 的实验数据显示，Claude 在推理类任务上表现更优，而 GPT 则在人文类问题上的得分更高。 Sakana AI 已将完整的 KAME 模型开源至 Hugging Face，并公开了论文和博客。这项工作让我们看到，语音 AI 在「快」与「深」之间的权衡并非不可调和——通过架构创新，对话智能的实时性与深度有望同时提升。随着开源社区的跟进，「边说边想」很可能成为下一代语音助手的事实标准。