Meta 在 2021 年开源的缓存引擎 CacheLib 于 2026 年 5 月 25 日迎来更新,这是该项目自 2024 年 6 月后的首次版本迭代。CacheLib 的核心思路是利用非易失性存储器(NVMe)作为缓存层来扩展缓存容量,以抵消不断上涨的 DRAM 成本——而在这个 AI 大规模拉动显存需求的时代,DRAM 价格相比 2021 年已近乎天价。 CacheLib 并非模型层面的优化,而是面向大规模 AI 推理基础设施的底层效率工具。它允许在 NVMe 上构建缓存池,承接原本驻留于 DRAM 的热点数据,从而以更低的硬件成本支撑更大的服务吞吐量。此次更新在 AI 推理成本压力激增的背景下显得格外及时。 这一动作背后折射出一个更广泛的现象:随着 LLM 推理规模的持续扩大,基础设施层面的效率优化正在成为各大厂的另一条隐形的竞争主线。模型本身的进步固然重要,但如何在推理侧降本增效,或许是决定谁能真正规模化商用的关键变量。