当前主流大模型的上下文窗口普遍停留在10万至100万token量级,而人类终身记忆据估算相当于2-3亿token。这一巨大落差催生了长程记忆这一2026年最活跃的研究方向。 来自Evermind、盛大集团和北京大学的研究团队近日发表了Memory Sparse Attention(MSA)论文,提出一种端到端可学习的稀疏路由机制:模型在训练阶段学会将海量文档压缩为预计算的注意力值,推理时再将最相关的chunk动态解压至工作内存,实现近乎无损的1亿token上下文。 MSA的核心创新在于其可微分的路由模块。传统方法要么直接限制序列长度,要么依赖外部检索系统,而MSA将压缩与检索统一在同一注意力框架内,既规避了O(n²)计算瓶颈,又保留了token间的语义关联。 该技术的影响是深远的。在多Agent系统领域,当前模型难以追踪跨天甚至跨周的任务历史,MSA有望让Agent真正拥有持久记忆;在文学分析场景中,AI将能完整理解《冰与火之歌》全系列的伏笔和人物弧线,而非只记住最近几章。 值得冷静看待的是:MSA仍处于论文阶段,训练和部署成本尚未披露,实际效果也有待开源社区复现。但从技术路径看,它指向了一条比纯扩大上下文窗口更可持续的扩展路线。