Qwen3.7-Max评测揭示推理代价:97M token输出背后的效率博弈

Qwen3.7-Max评测数据揭示了一个被忽视的问题:模型在Artificial Analysis的Intelligence Index评测中生成了约9700万输出token,而参评模型平均值仅2400万。这个4倍差距的来源不是内容冗余,而是Extended-Thinking模式——推理模型会先生成完整内部推理链再输出答案,对复杂任务有价值,对简单问答反而是延迟负担。\n\nQwen3.7-Max拿到56.6分位列第五,领先Gemini 3.5 Flash的55.3。但56.6距离GPT-5.5的60.2和Claude Opus 4.7的57.3仍有差距。更有意思的是评测之外的成本:生成97M token意味着更长延迟和更高推理消耗。\n\n这指向一个核心问题:推理模型不是万能加速器。对代码调试、多步规划、长文档分析这类任务,模型想得更久确实有价值;但对短平快问答,关闭思考模式、换用非推理版本往往更高效。Qwen3.7-Max的百万token上下文配合推理能力给Agent任务提供了更大舞台,但用户启用Extended-Thinking前需要先判断任务复杂度。用对了是效率杠杆,用错了就是延迟放大器。