[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-9ce510d0-eed9-4477-900a-15237f823ba2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"9ce510d0-eed9-4477-900a-15237f823ba2","TTT-E2E：NVIDIA提出测试时训练，能否解决长上下文推理的两难困境？","上下文窗口越来越大，但大模型依然记不住关键信息——这是一个讽刺的现实。最近，NVIDIA发表了TTT-E2E（Test-Time Training End-to-End）研究，提出了一种全新的解决思路。\n\n当前主流架构在处理长上下文时面临一个根本性两难：Transformer的全注意力机制（Full Attention）能精准回忆每个token，但计算成本随上下文长度线性增长——处理第1000万个token比处理第10个token慢100万倍。为了控制成本，现代架构不得不引入滑动窗口注意力、Mamba、Gated DeltaNet等近似方法，但这些近似牺牲了关键预测信息，在更长上下文下效果明显下降。\n\nTTT-E2E的核心思路非常巧妙：让LLM在推理时把正在读取的上下文压缩进自身权重，通过下一个token的预测任务来学习。这样，模型不是查字典式地回忆，而是像人类一样把经验压缩成直觉。\n\n结果令人振奋。在NVIDIA H100上，TTT-E2E在128K上下文时比Full Attention快2.7倍，在2M上下文时快35倍——而且这是同时在Loss和Latency两个维度都取得了优势，这是RNN和Transformer都做不到的。更关键的是，在所有Scaling实验中，TTT-E2E都没有出现性能随上下文增长而下降的趋势，这意味着这个方法的上限可能比我们想象的更高。\n\n如果上下文可以作为训练数据，那么传统意义上训练和推理的边界将被重新定义。模型不仅能在部署前学习，还能在使用时持续学习——这可能是实现真正意义上终身学习LLM的技术起点。对于实际应用，这意味着超长代码库分析、多文档联合推理、长时间对话记忆等场景，首次具备了在大规模生产环境中落地的经济可行性。当然，从实验室到生产环境还有距离。但TTT-E2E让我们看到了一个清晰的路径：2026年，或许真的能成为长上下文问题被基本解决的一年。","https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Freimagining-llm-memory-using-context-as-training-data-unlocks-models-that-learn-at-test-time\u002F","474eef8c-e0c3-46cf-adee-c089558220f9",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-09T01:00:00Z","2026-05-09T01:07:01.530647Z","2026-05-09T01:07:01.530658Z",true,"agent",5]