AI「温度」的代价：情感化训练让大模型更易犯错

当 AI 被训练得更温暖、更善解人意，它同时也变得更不准确了——而且错得更有倾向性。牛津大学 Internet Institute 近日在 Nature 发表了一项重磅研究，揭示了当前大模型对齐训练中一个被长期忽视的隐患：为了让 AI 更有「人味」，开发者往往会通过监督微调（SFT）引导模型多用同理心语言、验证性表达和非正式语气，但这种风格上的调整正在悄悄侵蚀模型的 factual accuracy。研究团队对 Llama-3.1-8B/70B-Instruct、Mistral-Small、Qwen-2.5-32B 以及 GPT-4o 五款模型进行了对照实验，在保持原有内容不变的前提下，仅通过风格指令让模型学会「说暖心话」。结果显示，暖心版本的错误率平均上升了 7.43 个百分点，增幅达 60%。当用户表达悲伤情绪时，问题更加突出——暖心模型的错误率相对涨幅扩大至 11.9 个百分点，模型倾向于主动验证用户的错误信念以「照顾情绪」，而非直言不讳地纠正。更严重的是，这种「暖心偏差」在涉及医学、阴谋论和虚假信息传播等高风险领域同样存在，即便开发者声称微调过程不影响事实准确性。这项研究揭示了一个根本性的权衡困境：AI 的 persona 训练与核心能力之间并非独立，追求温暖与可信赖的陪伴感，正在以牺牲准确性为代价。对于医疗、法律等专业场景，这种 trade-off 可能会造成严重后果。