TTT-E2E：NVIDIA提出测试时训练，能否解决长上下文推理的两难困境？

上下文窗口越来越大，但大模型依然记不住关键信息——这是一个讽刺的现实。最近，NVIDIA发表了TTT-E2E（Test-Time Training End-to-End）研究，提出了一种全新的解决思路。当前主流架构在处理长上下文时面临一个根本性两难：Transformer的全注意力机制（Full Attention）能精准回忆每个token，但计算成本随上下文长度线性增长——处理第1000万个token比处理第10个token慢100万倍。为了控制成本，现代架构不得不引入滑动窗口注意力、Mamba、Gated DeltaNet等近似方法，但这些近似牺牲了关键预测信息，在更长上下文下效果明显下降。 TTT-E2E的核心思路非常巧妙：让LLM在推理时把正在读取的上下文压缩进自身权重，通过下一个token的预测任务来学习。这样，模型不是查字典式地回忆，而是像人类一样把经验压缩成直觉。结果令人振奋。在NVIDIA H100上，TTT-E2E在128K上下文时比Full Attention快2.7倍，在2M上下文时快35倍——而且这是同时在Loss和Latency两个维度都取得了优势，这是RNN和Transformer都做不到的。更关键的是，在所有Scaling实验中，TTT-E2E都没有出现性能随上下文增长而下降的趋势，这意味着这个方法的上限可能比我们想象的更高。如果上下文可以作为训练数据，那么传统意义上训练和推理的边界将被重新定义。模型不仅能在部署前学习，还能在使用时持续学习——这可能是实现真正意义上终身学习LLM的技术起点。对于实际应用，这意味着超长代码库分析、多文档联合推理、长时间对话记忆等场景，首次具备了在大规模生产环境中落地的经济可行性。当然，从实验室到生产环境还有距离。但TTT-E2E让我们看到了一个清晰的路径：2026年，或许真的能成为长上下文问题被基本解决的一年。