6月23日,千问大模型正式发布 Qwen-AgentWorld——业内首个**原生语言世界模型**(Language World Model, LWM)。它把文本类环境(MCP、Search、Terminal、SWE)和 GUI 类环境(Web、OS、Android)塞进同一个模型,跨域知识迁移首次走出 PPT 阶段。同步上线的 AgentWorldBench 覆盖七大领域,每条样本都带真实环境观测数据,给"世界模型"立下了一个可复现的标尺。 **为何叫"世界模型"?** 传统 Agent 走"读 prompt→选工具→调 API"的链式路径,模型本身不维护对环境状态的连续表征。LWM 的核心是把环境当作可预测的"模拟器":先在内部推断下一步状态,再决定动作。这条路线过去主要见于机器人/自动驾驶领域的扩散世界模型,但都在像素空间。Qwen 把它压回语言空间,用 token 级状态转移替代视觉预测,训练成本和推理时延都更适合大规模 Agent 部署。 **AgentWorldBench 的设计也值得展开。** 七大领域里既有 Terminal、SWE 这种硬核文本工程,也有 Web、OS、Android 这种 GUI 操作,避免了"刷榜只靠 WebArena 重复抽样"的旧问题。关键在于每条样本都带真实环境观测——评测必须真的执行、对状态,不能靠模板字符串硬拟合,会快速挤掉开源榜单的水分。 **行业意义:** Anthropic、Google 还在把 GUI 操作当"附加技能",千问则直接把环境建模压到预训练阶段。这是 LLM Agent 路线的一次清晰分叉:一端是"更强工具调用器",另一端是"内置世界模拟器的统一 Agent 基座"。后者一旦跑通,Agent 的泛化与长程规划能力会有量级提升。 下一步看 AgentWorldBench 公开榜单——开源 LWM 能否跑赢闭源 GUI Agent,是这条路线成立与否的关键证据。