Prime Intellect 押注「递归语言模型」RLM：让 LLM 主动管理自己的上下文

过去一年 LLM Agent 能力大幅跃升，能在大型代码库里自主读改数十个文件、跨请求保持上下文。但「context rot」——上下文越长模型能力越掉、成本线性攀升——依然悬在头上。Claude Code、Codex 等主流 Agent 框架采用「文件 + 定期 LLM 摘要压缩」做 scaffolding，本质是用文件系统把上下文外甩，再串接一连串 LLM。Prime Intellect 最近公开押注的「递归语言模型」（Recursive Language Model, RLM）走了完全不同的路：让模型自己用持久 Python REPL 去检查、过滤、变换输入，并通过 llm_batch 并行调用「子 LLM」完成具体任务。RLM 不会主动摘要上下文，因此不丢信息；它把上下文主动外包给 Python 脚本和子 LLM。所有外部工具（往往是高 token 输出源）只能由子 LLM 调用，主 RLM 永远不直接看见这些 token。Prime Intellect 把这与现有的 Context-Folding 方法（AgentFold、Agentic Context Engineering 等）做了对比——后者靠摘要压缩，RLM 靠程序化检索与递归拆分。Prime Intellect 的核心判断：通过端到端 RL 训练让模型学会管理自己的上下文，将是下一波关键突破，使 Agent 能处理周、月级长程任务。RLM 已实现在其 verifiers 环境与 prime-rl 训练框架上，并提供多套 RLM 环境。论文：https://arxiv.org/abs/2512.24601