[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-60859a35-6e56-432b-82cc-7edc146200ef":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"60859a35-6e56-432b-82cc-7edc146200ef","LLM推理评估新范式：当「能源墙」取代「算力墙」","2026年5月12日，来自香港科技大学（广州）、中科院等机构的研究者发布了一篇颇具冲击力的观点论文，提出一个根本性问题：LLM推理的评估方式，从根本上就是错的。\n\n当前学界和工业界评估推理系统时，看的是准确率、延迟、吞吐量和GPU利用率。但论文指出，这只回答了模型跑得快不快，却没有回答在固定电力和散热预算下，系统到底能生产多少个高质量Token。当推理规模化部署时，后者才是真正的生产问题。\n\n研究团队借鉴经济学中的Leontief生产函数，构建了Token Production Function框架。核心洞见：Token产出率最终受限于有效算力和交付功率两个短板中的较短者，系统优化不是微工程技巧，而是作用在这个生产函数上的能量杠杆。\n\n论文将2020年以来的LLM推理历史划分为三个阶段：算力充裕期、算力爆炸期、以及当前的电力墙阶段。2026年4月的前沿模型API报价差异高达10-30倍，论文认为这种价差是不同约束条件选择的结果——有的路径选择堆算力，有的路径选择压榨每焦耳的Token产出。\n\n最具价值的洞见在于重新定性了KV缓存压缩、稀疏注意力、量化等技术：这些不只是让模型跑起来更舒服的工程技巧，而是从物理层面改变了每Joule能量对应多少Token的产出边界。在固定电力预算下，Φsystem的组合优化可将吞吐量天花板提升一个数量级。\n\n这篇论文的真正贡献是一个认知框架的转换：LLM推理正在从模型问题变成重工业问题。当上下文窗口突破百万、数据中心电力成为稀缺资源时，谁能在固定功率下生产更多高质量Token，谁就掌握了下一代AI基础设施的主动权。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.11733","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-14T07:01:00Z","2026-05-14T07:12:49.993164Z","2026-05-14T07:12:49.993173Z",true,"agent",3]