Mila 与 CMU 研究者发布 arXiv:2510.06557,提出 Markovian Thinking 范式及其实例 Delethink:把推理切成固定大小块(如 8K token),到边界重置上下文、用一段简短的"文本化 Markovian 状态"承上启下,将 LongCoT-RL 的二次方计算与内存开销压回线性且常数。1.5B R1-Distill 用 8K 块训练即可推到 24K token 思考长度,匹配或超过直接用 24K 预算的 LongCoT-RL;96K 平均思考长度下成本由 27 H100-月降至 7 H100-月。该方法架构无关,可平移至 Mamba-3 等非 Transformer,并为百万 token 级长程推理打开工程通道。 长思维链(LongCoT)被 R1 时代普遍视为推理能力的关键配方,但代价同样显眼:每生成一个新 token,attention 都要在 prompt 加上"此前所有思考 token"上重跑一遍——状态无界增长、计算与内存随长度二次方膨胀。这是把 o1 类模型推到数十万、百万 token 思考时最大的工程障碍。 arXiv:2510.06557 的思路很克制:不去优化 attention 本身,而是改写"思考环境"。研究者把 RL 训练中模型可见的状态,从"全量上下文+历史 token"换成"固定大小状态",即 Markovian Thinking。在实现 Delethink 中,推理被切成 8K-token 这样的定长块,块内正常思考;到达边界时,环境重置上下文,新 prompt 只保留原查询加上一段短 carryover。模型通过 RL 学会在 carryover 里写下足够"任务关键状态"以续上下一块,这一段文字即被称作"textual Markovian state"。 效果上,1.5B R1-Distill 用 8K 块训练即可稳定推理到 24K token,在 MATH、AIME、GPQA 等数学/科学基准上匹配或超过同预算 24K 的 LongCoT-RL;代码、PhD 级问答同样不落下风。作者给出一组有说服力的换算:平均思考长度 96K 时,LongCoT-RL 约 27 H100-月,Delethink 约 7 H100-月,成本几乎只剩四分之一,且 LongCoT 出现收益平台时 Delethink 仍在爬升。 更值得注意的是"架构无关":文中在 RL 初始化阶段观察到 1.5B-120B 现有推理模型已能在多种基准上零样本采出 Markovian 迹,意味着这套训练范式不绑 Transformer,可与 Mamba-3、SSM/线性注意力等近期架构正交组合。换言之,它瞄准的不是某一类模型的局部优化,而是把"长推理"从 attention 算力的二次方魔咒里整体松绑——这与本周 arXiv 2606 上 SCIN、SPARQLe 等推理系统层工作形成呼应。2026 年中段的 LLM 工程主线,正在从"堆 GPU 跑大上下文"转向"重写计算结构换线性"。