大语言模型能否仅依靠自身生成的数据实现持续进化?一项来自arXiv的新研究给出了肯定答案。 自验证蒸馏(Self-Verified Distillation)是一种后训练优化方法:给定一批无标签的种子问题,模型首先为自己生成候选答案,再通过基于提示词的三阶段自我验证过滤(循环一致性→事实性→正确性),只有三个裁判全部通过才接受该答案并加入训练集。整个过程无需外部教师模型,也无需工具反馈。 在Qwen3系列上的实验结果值得关注:Qwen3-4B经自验证蒸馏后,数学基准(AIME26和HMMT)提升16.7分,科学基准(GPQA Diamond和HLE)提升11.1分,编程基准(LCBv5和LCBv6)提升8.3分,且这些提升同样在0.6B和8B模型上观察到,说明该方法具备跨尺度的普适性。 更值得注意的是,相比测试时计算方法(如UQ-TTC,需要在推理时消耗额外算力),自验证蒸馏在大多数场景下表现更好,但测试时只需一次推理调用。这意味着更低的部署成本和更好的实际可用性。 从技术逻辑上看,自验证蒸馏的核心理念是让模型成为自己的数据工厂——先生成,再用更严格的裁判标准筛选高质量样本。这一路径在2026年RLHF普遍遭遇地面真值稀缺问题的背景下,提供了另一种可行的后训练范式。