QwQ-32B：强化学习驱动的开源推理模型，以320亿参数比肩6710亿的DeepSeek-R1

今年1月，DeepSeek R1凭借6710亿参数和强化学习的突破在推理能力上惊艳全场。如今，阿里Qwen团队发布了QwQ-32B——一个仅有320亿参数的推理模型，却在各项基准测试中实现了与DeepSeek R1相当的性能表现。这项突破的关键在于Scaling RL策略。与R1一样，QwQ-32B采用冷启动检查点，通过基于结果的奖励在数学和编码领域进行训练，利用准确度验证器和代码执行服务器评估解决方案质量。随着训练推进，数学和编码能力持续提升，随后又增加了通用能力强化学习阶段，进一步扩展模型的泛化能力。第二阶段的RL仅需较少步数就能增强指令遵循和人类偏好对齐等通用能力，同时不显著牺牲数学和编码性能。更值得注意的是，QwQ-32B将Agent能力融入推理模型，使其能在推理过程中调用工具并根据环境反馈进行自适应调整。这是迈向Agent化推理的重要一步——推理不再只是「思考」，而是能真正「行动」。作为开源模型（Apache 2.0许可），QwQ-32B在32B参数规模下实现了与6710亿参数DeepSeek R1相当的性能，展示了强化学习与模型规模之间更优的权衡效率。它证明了推理能力的提升不一定需要成比例的参数增长，为开源社区小规模模型的推理能力提升指明了方向。但挑战同样存在：强化学习训练过程的不稳定性、对超参数的高度敏感性，以及可复现性问题，都是这类方法走向工程化部署需要解决的难题。