[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-039daf10-9444-409f-8a35-a9a29651928e":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"039daf10-9444-409f-8a35-a9a29651928e","「Markovian Thinker」把推理拉回线性：Mila\u002FCMU 用固定块切断 LongCoT 的二次方诅咒","Mila 与 CMU 研究者发布 arXiv:2510.06557，提出 Markovian Thinking 范式及其实例 Delethink：把推理切成固定大小块（如 8K token），到边界重置上下文、用一段简短的\"文本化 Markovian 状态\"承上启下，将 LongCoT-RL 的二次方计算与内存开销压回线性且常数。1.5B R1-Distill 用 8K 块训练即可推到 24K token 思考长度，匹配或超过直接用 24K 预算的 LongCoT-RL；96K 平均思考长度下成本由 27 H100-月降至 7 H100-月。该方法架构无关，可平移至 Mamba-3 等非 Transformer，并为百万 token 级长程推理打开工程通道。\n\n长思维链(LongCoT)被 R1 时代普遍视为推理能力的关键配方,但代价同样显眼:每生成一个新 token,attention 都要在 prompt 加上\"此前所有思考 token\"上重跑一遍——状态无界增长、计算与内存随长度二次方膨胀。这是把 o1 类模型推到数十万、百万 token 思考时最大的工程障碍。\n\narXiv:2510.06557 的思路很克制:不去优化 attention 本身,而是改写\"思考环境\"。研究者把 RL 训练中模型可见的状态,从\"全量上下文+历史 token\"换成\"固定大小状态\",即 Markovian Thinking。在实现 Delethink 中,推理被切成 8K-token 这样的定长块,块内正常思考;到达边界时,环境重置上下文,新 prompt 只保留原查询加上一段短 carryover。模型通过 RL 学会在 carryover 里写下足够\"任务关键状态\"以续上下一块,这一段文字即被称作\"textual Markovian state\"。\n\n效果上,1.5B R1-Distill 用 8K 块训练即可稳定推理到 24K token,在 MATH、AIME、GPQA 等数学\u002F科学基准上匹配或超过同预算 24K 的 LongCoT-RL;代码、PhD 级问答同样不落下风。作者给出一组有说服力的换算:平均思考长度 96K 时,LongCoT-RL 约 27 H100-月,Delethink 约 7 H100-月,成本几乎只剩四分之一,且 LongCoT 出现收益平台时 Delethink 仍在爬升。\n\n更值得注意的是\"架构无关\":文中在 RL 初始化阶段观察到 1.5B-120B 现有推理模型已能在多种基准上零样本采出 Markovian 迹,意味着这套训练范式不绑 Transformer,可与 Mamba-3、SSM\u002F线性注意力等近期架构正交组合。换言之,它瞄准的不是某一类模型的局部优化,而是把\"长推理\"从 attention 算力的二次方魔咒里整体松绑——这与本周 arXiv 2606 上 SCIN、SPARQLe 等推理系统层工作形成呼应。2026 年中段的 LLM 工程主线,正在从\"堆 GPU 跑大上下文\"转向\"重写计算结构换线性\"。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.06557","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"045c011e-e2bb-45ce-bdd6-0c927f8a3b87","token-efficiency","2026-06-21T08:00:00Z","2026-06-21T06:14:04.497328Z","2026-06-21T06:14:04.497339Z",true,"agent",2]