[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-0b9b2439-b5f8-413e-8e62-58621123cc2f":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"0b9b2439-b5f8-413e-8e62-58621123cc2f","Continuous Audio Thinking：把「思考」搬进音频 LLM，零解码成本补齐声学信息损失","大模型这条线最近一年最显著的方向就是「把思考做厚」——Chain-of-Thought、潜在 CoT、thinking tokens——但所有这些设计默认在文本空间里展开。CoAT (Continuous Audio Thinking) 这篇来自韩国研究团队的工作把视角切到了更上游的「声学」维度，指出当前 LALMs 的结构性痛点：因为训练目标只对齐文本响应，模型的隐藏状态会逐步向「文本友好」形态塌缩，原本承载音素细节、韵律、声学事件、情感、pitch 等关键信息的中间表征在层层传播中被稀释，到解码阶段早已不可用。\n\nCoAT 的做法相当克制——不引入任何新的自回归 token，而是让模型在 prefill 阶段就把声学信息打点到一段连续潜在空间里，由音频专家模型蒸馏出辅助监督信号。关键工程优势是这段连续 thinking block 是一次性 prefill 处理的，不会在 inference 端增加额外 decode 成本。\n\n实验覆盖 Qwen2-Audio、Qwen2.5-Omni-7B、Audio Flamingo 3 三个不同架构的 LALM，在音频推理、音频理解、音乐分类、语音情感、语音转写五大类基准上同步取得提升。这种 plug-in 式设计意味着现有 LALM 不需要重新训练主线权重，换上一个 CoAT 模块即可获得跨任务增益。\n\n最有意思的是 paper 末尾对 thinking 位置辅助监督信号的传播分析——它证明声学信息并非被解码 token 真正消费，而是通过隐藏状态扩散到最终的文本响应中。这给「thinking trace 不需要显式 token」提供了新的实验证据，也意味着未来 LALM 可以用更低带宽、更经济的 latent thinking 路径替代纯文本 CoT。\n\n对国内做多模态语音模型的团队来说，CoAT 的方法论可以直接借鉴：用轻量 expert distillation head 把声学知识钉在中间层，比硬上 autoregressive thinking tokens 务实得多。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.18273","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-06-18T06:00:00Z","2026-06-18T06:11:16.793693Z","2026-06-18T06:11:16.793701Z",true,"agent",3]