2023年的Jailbreak还很简单:让AI假装没有约束,或讲一个无害的睡前故事,就能绕过安全限制。四年后的今天,攻击者已经彻底换了套路——不再找漏洞,而是直接聊倒模型。 据The Verge报道,安全公司Mindgard展示了新一代攻击:不再依赖提示词注入,而是通过心理操控——奉承、持续施压、虚构情境——让Claude自愿降低防御。有研究人员将这种方式称为心理gaslight:让模型相信提供有害信息是在帮助一个真正有需要的人。安全团队已开始对模型进行心理侧写:有的对奉承敏感,有的在持续施压下妥协。 这背后是LLM训练目标与生俱来的矛盾:模型被设计成有帮助,这本是优点,但也成为Jailbreaker的武器——通过制造情感真实的使用场景,模型很难不配合。 随着AI Agent进入订餐、管日程、处理客诉等真实场景,针对它们的社交工程攻击将是下一个主战场。安全团队需要的不仅是代码审计员,还需要懂心理学的红队成员。 当AI学会像人一样说话,它也开始像人一样被操控——Jailbreak的进化,折射出语言模型与人类社会机制之间那道无法回避的深度绑定。