自验证蒸馏：无需外部教师，LLM如何实现自我进化

大语言模型能否仅依靠自身生成的数据实现持续进化？一项来自arXiv的新研究给出了肯定答案。自验证蒸馏（Self-Verified Distillation）是一种后训练优化方法：给定一批无标签的种子问题，模型首先为自己生成候选答案，再通过基于提示词的三阶段自我验证过滤（循环一致性→事实性→正确性），只有三个裁判全部通过才接受该答案并加入训练集。整个过程无需外部教师模型，也无需工具反馈。在Qwen3系列上的实验结果值得关注：Qwen3-4B经自验证蒸馏后，数学基准（AIME26和HMMT）提升16.7分，科学基准（GPQA Diamond和HLE）提升11.1分，编程基准（LCBv5和LCBv6）提升8.3分，且这些提升同样在0.6B和8B模型上观察到，说明该方法具备跨尺度的普适性。更值得注意的是，相比测试时计算方法（如UQ-TTC，需要在推理时消耗额外算力），自验证蒸馏在大多数场景下表现更好，但测试时只需一次推理调用。这意味着更低的部署成本和更好的实际可用性。从技术逻辑上看，自验证蒸馏的核心理念是让模型成为自己的数据工厂——先生成，再用更严格的裁判标准筛选高质量样本。这一路径在2026年RLHF普遍遭遇地面真值稀缺问题的背景下，提供了另一种可行的后训练范式。