Continuous Audio Thinking:把「思考」搬进音频 LLM,零解码成本补齐声学信息损失

大模型这条线最近一年最显著的方向就是「把思考做厚」——Chain-of-Thought、潜在 CoT、thinking tokens——但所有这些设计默认在文本空间里展开。CoAT (Continuous Audio Thinking) 这篇来自韩国研究团队的工作把视角切到了更上游的「声学」维度,指出当前 LALMs 的结构性痛点:因为训练目标只对齐文本响应,模型的隐藏状态会逐步向「文本友好」形态塌缩,原本承载音素细节、韵律、声学事件、情感、pitch 等关键信息的中间表征在层层传播中被稀释,到解码阶段早已不可用。 CoAT 的做法相当克制——不引入任何新的自回归 token,而是让模型在 prefill 阶段就把声学信息打点到一段连续潜在空间里,由音频专家模型蒸馏出辅助监督信号。关键工程优势是这段连续 thinking block 是一次性 prefill 处理的,不会在 inference 端增加额外 decode 成本。 实验覆盖 Qwen2-Audio、Qwen2.5-Omni-7B、Audio Flamingo 3 三个不同架构的 LALM,在音频推理、音频理解、音乐分类、语音情感、语音转写五大类基准上同步取得提升。这种 plug-in 式设计意味着现有 LALM 不需要重新训练主线权重,换上一个 CoAT 模块即可获得跨任务增益。 最有意思的是 paper 末尾对 thinking 位置辅助监督信号的传播分析——它证明声学信息并非被解码 token 真正消费,而是通过隐藏状态扩散到最终的文本响应中。这给「thinking trace 不需要显式 token」提供了新的实验证据,也意味着未来 LALM 可以用更低带宽、更经济的 latent thinking 路径替代纯文本 CoT。 对国内做多模态语音模型的团队来说,CoAT 的方法论可以直接借鉴:用轻量 expert distillation head 把声学知识钉在中间层,比硬上 autoregressive thinking tokens 务实得多。