LUT-LLM:FPGA上用「查表」替代计算,让大模型推理能效提升6倍

大模型推理的能效瓶颈,正在催生一种另辟蹊径的硬件方案。 传统上,LLM推理依赖GPU的算术运算完成矩阵乘法等核心操作。但FPGA的强项并非算力,而是大量分布式片上存储与灵活的数据通路控制能力——这一点在传统算术范式下被白白浪费了。 FCCM 2026会议上提出的LUT-LLM,首次在FPGA上实现以内存查表(memory-based computation)替代算术运算来运行十亿参数级语言模型。核心思路:将LLM的矩阵运算结果量化到离散编码表,推理时按索引查表取结果,大幅减少乘加操作。该方案采用激活-权重联合量化,最小化量化误差。 工程层面有三个关键优化:带宽感知的并行质心搜索降低解码延迟;高效二维表查找减少表访问开销;时空混合架构削减数据缓存次数,提升吞吐量。 在AMD V80 FPGA上以Qwen 3 1.7B实测,算术操作减少4倍,生成速度提升1.1~3.3倍,能效达到GPU的3~6.6倍。对于追求低功耗、低延迟推理的场景,这一方向值得关注。不过,当前方案针对特定量化策略做了深度适配,迁移至其他模型家族尚需进一步泛化研究。 LLM推理的硬件竞争正从「拼算力」走向「拼架构」。查表取代计算,或许只是开始。