InftyThink解析：浙大+美团ICLR 2026提出迭代式长程推理新范式

大语言模型在长程推理任务上表现惊艳，但传统范式面临三重困境：计算复杂度随序列长度呈二次方增长、推理受限于最大上下文窗口、超出预训练范围后性能急剧下降。浙江大学与美团在ICLR 2026联合发表的InftyThink，提出了将整体式推理转化为迭代过程的范式突破。核心思路并不复杂：将长推理链切分为多个短段落，每段推理后插入精炼的进度摘要。这种锯齿状记忆模式让模型无需一次性加载完整上下文，即可实现无限深度的推理能力，同时保持计算成本有界。在Qwen2.5-Math-7B上的实验显示，在MATH500、AIME24、GPQA_diamond等基准上分别获得3-13%的性能提升。这一工作的意义在于打破了一个长期被接受的权衡假设：通常认为推理深度与计算效率不可兼得。InftyThink证明，只要改变推理的结构化形式，就可以在不修改模型架构的前提下同时获得两者。研究者将OpenR1-Math数据集中的推理链重构为333K个迭代式训练样本，已在HuggingFace开源。对实践者而言，这意味着：当前的长上下文窗口限制并非不可逾越，通过推理过程的重组，7B级模型也能在复杂多步推理任务上超越更大规模的闭源模型。随着这项技术被更多开源项目采用，无限推理有望成为下一代LLM的标准能力。