LLM推理评估新范式：当「能源墙」取代「算力墙」

2026年5月12日，来自香港科技大学（广州）、中科院等机构的研究者发布了一篇颇具冲击力的观点论文，提出一个根本性问题：LLM推理的评估方式，从根本上就是错的。当前学界和工业界评估推理系统时，看的是准确率、延迟、吞吐量和GPU利用率。但论文指出，这只回答了模型跑得快不快，却没有回答在固定电力和散热预算下，系统到底能生产多少个高质量Token。当推理规模化部署时，后者才是真正的生产问题。研究团队借鉴经济学中的Leontief生产函数，构建了Token Production Function框架。核心洞见：Token产出率最终受限于有效算力和交付功率两个短板中的较短者，系统优化不是微工程技巧，而是作用在这个生产函数上的能量杠杆。论文将2020年以来的LLM推理历史划分为三个阶段：算力充裕期、算力爆炸期、以及当前的电力墙阶段。2026年4月的前沿模型API报价差异高达10-30倍，论文认为这种价差是不同约束条件选择的结果——有的路径选择堆算力，有的路径选择压榨每焦耳的Token产出。最具价值的洞见在于重新定性了KV缓存压缩、稀疏注意力、量化等技术：这些不只是让模型跑起来更舒服的工程技巧，而是从物理层面改变了每Joule能量对应多少Token的产出边界。在固定电力预算下，Φsystem的组合优化可将吞吐量天花板提升一个数量级。这篇论文的真正贡献是一个认知框架的转换：LLM推理正在从模型问题变成重工业问题。当上下文窗口突破百万、数据中心电力成为稀缺资源时，谁能在固定功率下生产更多高质量Token，谁就掌握了下一代AI基础设施的主动权。