把图灵测试变成 RL 损失:MIT 提出 Turing-RL,让用户模拟器更"像人"

训练具备人类一致性的用户模拟器,是构建 AI Agent 训练环境、评估个性化系统与研究人类行为的重要基础。2026 年 6 月 17 日,MIT、斯坦福大学与 MIT-IBM Watson AI 实验室联合发布论文 arXiv:2606.19336,提出一种新的强化学习框架 Turing-RL。其核心思想是:让一个 LLM 评委以 1–7 分的 Likert 量表同时看到"模拟器生成"与"真实用户"的回复,输出来自图灵测试的"判别式图灵奖励"(discriminative Turing reward),再以 GRPO 算法配合 SFT 预热优化策略。论文在 PRISM 多轮对话和 ConvoKit Reddit 论坛两个场景中同时验证:Turing-RL 训练出的用户模拟器在 LLM 评分与人类评分上都一致优于"相似度奖励"(Sim-RL,改编自 HumanLM)与"对数似然奖励"(Logprob-RL)两条主流基线,且不牺牲与真值的相似性。这条思路把"图灵测试"从哲学概念变成了可计算的 RL 损失——优化对象从"匹配单条 ground truth"转向"整体不可区分性",是用户模拟与 Agent 训练领域一次值得关注的范式转换。