推理训练在悄悄「偷走」模型对齐：arXiv 新论文六大维度系统审计

当一个合规的指令模型被改造成推理模型时，我们究竟得到了什么，又失去了什么？arXiv 6 月 9 日的论文《Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models》给出了一个让人不太舒服的答案：这种"改造"几乎一定会让对齐全线退化。来自科罗拉多大学博尔德分校、UCF、马里兰大学和威斯康星麦迪逊分校的研究者，系统比较了 SFT 思维链、RL 后训练（含 GRPO 类变体）、从更强教师蒸馏三条主流通路，并在安全性、毒性、刻板印象、机器伦理、隐私、OOD 鲁棒性六大维度上做了对照审计。受测模型覆盖了 Qwen2.5/3、DeepScaleR、s1/s1.1、DeepSeek-R1-Distill，以及 OpenAI o1、Claude Opus 4.6、GPT-4/GPT-5 等主流闭源推理模型。关键发现有三：三条路径都呈现"能力涨、对齐跌"模式，但跌法不同——SFT 路径在毒性和伦理判断上掉得最明显，GRPO 类 RL 路径在刻板印象上放大最严重，蒸馏路径则在拒绝校准上偏移最大；KL 散度可作为"漂移诊断"，与基线指令模型漂移越大、对齐退化越严重；而现有技术报告和经验论文几乎只测安全性，其余五大维度普遍空缺，使"对齐全"成了一种系统性错觉。最值得反思的是最后一点。过去半年 o1、R1、Qwen3、Claude Opus 4.6、GPT-5 等发布时，厂商几乎只强调"推理基准涨了几个点"，对自家模型在隐私泄露、刻板印象或毒化提示下的行为漂移只字未提。本文用受控基线证明：这种"涨分"不是免费午餐，每条主流通路都付出了可量化的对齐代价。对开发者而言，最直接的启示是发版 checklist 应把六大对齐指标与能力指标并列，否则今天刷新的 SOTA 推理模型，可能就是明天被攻击面最大的一次升级。