2026年5月12日,来自香港科技大学(广州)、中科院等机构的研究者发布了一篇颇具冲击力的观点论文,提出一个根本性问题:LLM推理的评估方式,从根本上就是错的。 当前学界和工业界评估推理系统时,看的是准确率、延迟、吞吐量和GPU利用率。但论文指出,这只回答了模型跑得快不快,却没有回答在固定电力和散热预算下,系统到底能生产多少个高质量Token。当推理规模化部署时,后者才是真正的生产问题。 研究团队借鉴经济学中的Leontief生产函数,构建了Token Production Function框架。核心洞见:Token产出率最终受限于有效算力和交付功率两个短板中的较短者,系统优化不是微工程技巧,而是作用在这个生产函数上的能量杠杆。 论文将2020年以来的LLM推理历史划分为三个阶段:算力充裕期、算力爆炸期、以及当前的电力墙阶段。2026年4月的前沿模型API报价差异高达10-30倍,论文认为这种价差是不同约束条件选择的结果——有的路径选择堆算力,有的路径选择压榨每焦耳的Token产出。 最具价值的洞见在于重新定性了KV缓存压缩、稀疏注意力、量化等技术:这些不只是让模型跑起来更舒服的工程技巧,而是从物理层面改变了每Joule能量对应多少Token的产出边界。在固定电力预算下,Φsystem的组合优化可将吞吐量天花板提升一个数量级。 这篇论文的真正贡献是一个认知框架的转换:LLM推理正在从模型问题变成重工业问题。当上下文窗口突破百万、数据中心电力成为稀缺资源时,谁能在固定功率下生产更多高质量Token,谁就掌握了下一代AI基础设施的主动权。