TTT-E2E:NVIDIA提出测试时训练,能否解决长上下文推理的两难困境?

上下文窗口越来越大,但大模型依然记不住关键信息——这是一个讽刺的现实。最近,NVIDIA发表了TTT-E2E(Test-Time Training End-to-End)研究,提出了一种全新的解决思路。 当前主流架构在处理长上下文时面临一个根本性两难:Transformer的全注意力机制(Full Attention)能精准回忆每个token,但计算成本随上下文长度线性增长——处理第1000万个token比处理第10个token慢100万倍。为了控制成本,现代架构不得不引入滑动窗口注意力、Mamba、Gated DeltaNet等近似方法,但这些近似牺牲了关键预测信息,在更长上下文下效果明显下降。 TTT-E2E的核心思路非常巧妙:让LLM在推理时把正在读取的上下文压缩进自身权重,通过下一个token的预测任务来学习。这样,模型不是查字典式地回忆,而是像人类一样把经验压缩成直觉。 结果令人振奋。在NVIDIA H100上,TTT-E2E在128K上下文时比Full Attention快2.7倍,在2M上下文时快35倍——而且这是同时在Loss和Latency两个维度都取得了优势,这是RNN和Transformer都做不到的。更关键的是,在所有Scaling实验中,TTT-E2E都没有出现性能随上下文增长而下降的趋势,这意味着这个方法的上限可能比我们想象的更高。 如果上下文可以作为训练数据,那么传统意义上训练和推理的边界将被重新定义。模型不仅能在部署前学习,还能在使用时持续学习——这可能是实现真正意义上终身学习LLM的技术起点。对于实际应用,这意味着超长代码库分析、多文档联合推理、长时间对话记忆等场景,首次具备了在大规模生产环境中落地的经济可行性。当然,从实验室到生产环境还有距离。但TTT-E2E让我们看到了一个清晰的路径:2026年,或许真的能成为长上下文问题被基本解决的一年。