LLM后训练阶段通常依赖外部教师模型或工具反馈来提升性能。但斯坦福大学和Perplexity的研究者提出Self-Verified Distillation(SVD),让模型仅凭无标签种子问题,通过自我验证实现持续进化。 SVD的核心是三阶段级联过滤:模型对种子问题生成多个候选答案,通过循环一致性、事实性和正确性三重检验筛选,只有unanimous判断通过的答案才用于训练。这种自洽验证机制inspired by UQ benchmark的多验证器筛选策略,但创新性地将其应用于自训练场景。 在Qwen3上的实验显示:Qwen3-4B在数学(AIME26和HMMT)上提升16.7分、科学(GPQA Diamond和HLE)上提升11.1分、编程(LCBv5和LCBv6)上提升8.3分,且该方法在0.6B到8B等多个规模上均表现出一致性收益。值得注意的是,SVD在测试时仅需一次推理调用,就能超越需要额外测试时计算的基准方法UQ-TTC,在推理成本上更具优势。 这一突破的深层意义在于:LLM的自我改进正从依赖外部知识转向内生循环。当模型能够自主筛选高质量合成数据时,数据枯竭和分布偏移这两大瓶颈将从根本上得到缓解。这也意味着未来模型升级不一定需要更大规模的标注数据或更贵的外部API,自我验证循环将成为新的 scaling 路径。