传统 RAG 检索的依据是字面或语义相似度,但在复杂推理任务上这种"按字找参考"的方式经常失效:一个语义相近的题目可能需要完全不同的解法,而一道看似毫不相干的题反而共享同一套推理套路。Zilin Xiao 等人近期在 arXiv 公开的 RA-RFT(Retrieval-Augmented Reinforcement Fine-Tuning)框架,正是把检索标准从"表面相似"切到"推理收益"上的一次系统性尝试。 RA-RFT 的两阶段设计相当直接。第一阶段用 gold-relevance distillation 训练一个 retriever,让它按"这道例题能否带来可迁移的推理线索"来排序上下文,而不再是看 embedding 距离有多近。第二阶段把检索到的类比演示喂给策略模型,用 verifiable outcome rewards 做强化微调,让模型学会在"看起来不熟"的例子里挑出真正能复用的推理轨迹。 作者在 AIME 2025 等数学推理基准上做的对比相当硬:Qwen3-1.7B 配 RA-RFT 之后,average@32 比 GRPO 基线高 7.1 个点;Qwen3-4B 也稳涨 2.8 个点。更值得注意的是文中对检索多样性的分析:reasoning-aware 的检索天然会捞到解法互补的例题,给同一道题提供不同的"scaffold",这正是传统相似度检索给不出来的。 这件事的启发在于,作者明确指出 reasoning-aware retrieval 与奖励设计、训练课程是正交的——也就是说,过去一年大家把力气花在 GRPO 变体、过程奖励、课程学习上,确实有效,但还有一个被严重低估的轴:给模型"看什么例子"。当 RL 后训练从数据驱动走向检索驱动,我们离"小模型也能继承大模型的解题直觉"又近了一步。