DeepSeek 紧急回应「对话泄露」:<think>字符触发模型幻觉,非安全漏洞

5月19日,DeepSeek发布关于<think>字符触发模型异常回复的说明,确认该问题属于特殊字符引发的模型幻觉,而非安全漏洞或隐私泄露。 5月18日,多位用户反映在DeepSeek网页版输入"<think"字符时,模型返回了疑似其他用户的历史问答内容,部分涉及八字等敏感信息,引发数据泄露担忧。技术团队调查后指出:<think>本是模型输出推理过程的功能性标签,用户输入该字符时实际上是在构造一种异常prompt,诱导模型产生看似"跨会话"的内容。这是一种典型的prompt注入场景——输出并非来自真实会话数据,而是模型基于训练模式的幻觉合成。 从大模型原理看<think>标签与特定上下文的高频关联使模型对这类输入异常敏感。当用户刻意构造时,模型可能被诱导"扮演"某种特殊状态,输出本不应出现的内容。这与传统的越狱有相似之处,都是通过构造边界输入来绕过模型的安全约束。 此次事件虽为虚惊,但揭示了三层问题:特殊字符的边界测试不足、用户对幻觉与泄露的辨识度低、隐私架构需持续加固。DeepSeek表示将针对该问题进行专项训练,优化模型对特殊字符场景的处理。整个行业都应从中吸取教训:在模型能力快速迭代的同时,边界条件的系统性测试和安全防护不能拖后腿。