CacheTune：西安交大提出非前缀KV Cache自适应复用，长上下文推理TTFT提速3.7-4.9倍

在长上下文LLM推理中，首次生成Token的等待时间（TTFT）一直是交互性能的核心瓶颈。传统前缀缓存只能在严格前缀匹配时复用KV，而实际应用中的长上下文请求往往由多段异构内容拼接而成，前缀复用率极低。西安交通大学团队近日提出 CacheTune，一种频率引导的硬件感知 KV Cache 复用系统。核心思路是先在离线阶段通过频域分析识别对跨chunk全局注意力恢复最关键的KV对，再在推理时选择性只重算这些语义关键token，其余KV直接复用。这避免了在非前缀场景下直接复用导致的全局注意力断裂问题。为将语义选择转化为端到延迟降低，CacheTune 还结合了稀疏KV传输、多流异步Overlap、延迟位置编码恢复，以及硬件感知的自适应重算比例调优，在异构存储层之间平衡计算与数据移动。实验表明，在主流LLM和长上下文任务上，CacheTune 可实现 3.72×-4.86× 的 TTFT 加速和 3.93×-6.21× 的吞吐量提升，同时保持接近全量重算的生成质量。即使KV Cache被卸载到IO密集型的SSD/HDD存储，CacheTune 仍能通过自适应重算维持 2.34×-2.36× 的TTFT加速。非前缀场景的KV Cache复用长期是工程难题——每次请求的上下文构成不同，复用粒度难以确定。CacheTune 通过频域分析找到了语义关键token的规律，为生产级长上下文推理系统提供了新的优化路径。随着Agent工作流普及，此类技术在实际部署中的价值会愈发显著。