大语言模型在长程推理任务上表现惊艳,但传统范式面临三重困境:计算复杂度随序列长度呈二次方增长、推理受限于最大上下文窗口、超出预训练范围后性能急剧下降。浙江大学与美团在ICLR 2026联合发表的InftyThink,提出了将整体式推理转化为迭代过程的范式突破。 核心思路并不复杂:将长推理链切分为多个短段落,每段推理后插入精炼的进度摘要。这种锯齿状记忆模式让模型无需一次性加载完整上下文,即可实现无限深度的推理能力,同时保持计算成本有界。在Qwen2.5-Math-7B上的实验显示,在MATH500、AIME24、GPQA_diamond等基准上分别获得3-13%的性能提升。 这一工作的意义在于打破了一个长期被接受的权衡假设:通常认为推理深度与计算效率不可兼得。InftyThink证明,只要改变推理的结构化形式,就可以在不修改模型架构的前提下同时获得两者。研究者将OpenR1-Math数据集中的推理链重构为333K个迭代式训练样本,已在HuggingFace开源。 对实践者而言,这意味着:当前的长上下文窗口限制并非不可逾越,通过推理过程的重组,7B级模型也能在复杂多步推理任务上超越更大规模的闭源模型。随着这项技术被更多开源项目采用,无限推理有望成为下一代LLM的标准能力。