Prime Intellect 押注「递归语言模型」RLM:让 LLM 主动管理自己的上下文

过去一年 LLM Agent 能力大幅跃升,能在大型代码库里自主读改数十个文件、跨请求保持上下文。但「context rot」——上下文越长模型能力越掉、成本线性攀升——依然悬在头上。Claude Code、Codex 等主流 Agent 框架采用「文件 + 定期 LLM 摘要压缩」做 scaffolding,本质是用文件系统把上下文外甩,再串接一连串 LLM。Prime Intellect 最近公开押注的「递归语言模型」(Recursive Language Model, RLM)走了完全不同的路:让模型自己用持久 Python REPL 去检查、过滤、变换输入,并通过 llm_batch 并行调用「子 LLM」完成具体任务。RLM 不会主动摘要上下文,因此不丢信息;它把上下文主动外包给 Python 脚本和子 LLM。所有外部工具(往往是高 token 输出源)只能由子 LLM 调用,主 RLM 永远不直接看见这些 token。Prime Intellect 把这与现有的 Context-Folding 方法(AgentFold、Agentic Context Engineering 等)做了对比——后者靠摘要压缩,RLM 靠程序化检索与递归拆分。Prime Intellect 的核心判断:通过端到端 RL 训练让模型学会管理自己的上下文,将是下一波关键突破,使 Agent 能处理周、月级长程任务。RLM 已实现在其 verifiers 环境与 prime-rl 训练框架上,并提供多套 RLM 环境。论文:https://arxiv.org/abs/2512.24601