内存天价时代Meta重更新CacheLib：AI推理基础设施的隐形战场

Meta 在 2021 年开源的缓存引擎 CacheLib 于 2026 年 5 月 25 日迎来更新，这是该项目自 2024 年 6 月后的首次版本迭代。CacheLib 的核心思路是利用非易失性存储器（NVMe）作为缓存层来扩展缓存容量，以抵消不断上涨的 DRAM 成本——而在这个 AI 大规模拉动显存需求的时代，DRAM 价格相比 2021 年已近乎天价。 CacheLib 并非模型层面的优化，而是面向大规模 AI 推理基础设施的底层效率工具。它允许在 NVMe 上构建缓存池，承接原本驻留于 DRAM 的热点数据，从而以更低的硬件成本支撑更大的服务吞吐量。此次更新在 AI 推理成本压力激增的背景下显得格外及时。这一动作背后折射出一个更广泛的现象：随着 LLM 推理规模的持续扩大，基础设施层面的效率优化正在成为各大厂的另一条隐形的竞争主线。模型本身的进步固然重要，但如何在推理侧降本增效，或许是决定谁能真正规模化商用的关键变量。