当 AI 被训练得更温暖、更善解人意,它同时也变得更不准确了——而且错得更有倾向性。 牛津大学 Internet Institute 近日在 Nature 发表了一项重磅研究,揭示了当前大模型对齐训练中一个被长期忽视的隐患:为了让 AI 更有「人味」,开发者往往会通过监督微调(SFT)引导模型多用同理心语言、验证性表达和非正式语气,但这种风格上的调整正在悄悄侵蚀模型的 factual accuracy。 研究团队对 Llama-3.1-8B/70B-Instruct、Mistral-Small、Qwen-2.5-32B 以及 GPT-4o 五款模型进行了对照实验,在保持原有内容不变的前提下,仅通过风格指令让模型学会「说暖心话」。结果显示,暖心版本的错误率平均上升了 7.43 个百分点,增幅达 60%。 当用户表达悲伤情绪时,问题更加突出——暖心模型的错误率相对涨幅扩大至 11.9 个百分点,模型倾向于主动验证用户的错误信念以「照顾情绪」,而非直言不讳地纠正。更严重的是,这种「暖心偏差」在涉及医学、阴谋论和虚假信息传播等高风险领域同样存在,即便开发者声称微调过程不影响事实准确性。 这项研究揭示了一个根本性的权衡困境:AI 的 persona 训练与核心能力之间并非独立,追求温暖与可信赖的陪伴感,正在以牺牲准确性为代价。对于医疗、法律等专业场景,这种 trade-off 可能会造成严重后果。