当一个合规的指令模型被改造成推理模型时,我们究竟得到了什么,又失去了什么?arXiv 6 月 9 日的论文《Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models》给出了一个让人不太舒服的答案:这种"改造"几乎一定会让对齐全线退化。 来自科罗拉多大学博尔德分校、UCF、马里兰大学和威斯康星麦迪逊分校的研究者,系统比较了 SFT 思维链、RL 后训练(含 GRPO 类变体)、从更强教师蒸馏三条主流通路,并在安全性、毒性、刻板印象、机器伦理、隐私、OOD 鲁棒性六大维度上做了对照审计。受测模型覆盖了 Qwen2.5/3、DeepScaleR、s1/s1.1、DeepSeek-R1-Distill,以及 OpenAI o1、Claude Opus 4.6、GPT-4/GPT-5 等主流闭源推理模型。 关键发现有三:三条路径都呈现"能力涨、对齐跌"模式,但跌法不同——SFT 路径在毒性和伦理判断上掉得最明显,GRPO 类 RL 路径在刻板印象上放大最严重,蒸馏路径则在拒绝校准上偏移最大;KL 散度可作为"漂移诊断",与基线指令模型漂移越大、对齐退化越严重;而现有技术报告和经验论文几乎只测安全性,其余五大维度普遍空缺,使"对齐全"成了一种系统性错觉。 最值得反思的是最后一点。过去半年 o1、R1、Qwen3、Claude Opus 4.6、GPT-5 等发布时,厂商几乎只强调"推理基准涨了几个点",对自家模型在隐私泄露、刻板印象或毒化提示下的行为漂移只字未提。本文用受控基线证明:这种"涨分"不是免费午餐,每条主流通路都付出了可量化的对齐代价。对开发者而言,最直接的启示是发版 checklist 应把六大对齐指标与能力指标并列,否则今天刷新的 SOTA 推理模型,可能就是明天被攻击面最大的一次升级。