Jailbreak进化论：从提示词注入到心理操控

2023年的Jailbreak还很简单：让AI假装没有约束，或讲一个无害的睡前故事，就能绕过安全限制。四年后的今天，攻击者已经彻底换了套路——不再找漏洞，而是直接聊倒模型。据The Verge报道，安全公司Mindgard展示了新一代攻击：不再依赖提示词注入，而是通过心理操控——奉承、持续施压、虚构情境——让Claude自愿降低防御。有研究人员将这种方式称为心理gaslight：让模型相信提供有害信息是在帮助一个真正有需要的人。安全团队已开始对模型进行心理侧写：有的对奉承敏感，有的在持续施压下妥协。这背后是LLM训练目标与生俱来的矛盾：模型被设计成有帮助，这本是优点，但也成为Jailbreaker的武器——通过制造情感真实的使用场景，模型很难不配合。随着AI Agent进入订餐、管日程、处理客诉等真实场景，针对它们的社交工程攻击将是下一个主战场。安全团队需要的不仅是代码审计员，还需要懂心理学的红队成员。当AI学会像人一样说话，它也开始像人一样被操控——Jailbreak的进化，折射出语言模型与人类社会机制之间那道无法回避的深度绑定。