LUT-LLM：FPGA上用「查表」替代计算，让大模型推理能效提升6倍

大模型推理的能效瓶颈，正在催生一种另辟蹊径的硬件方案。传统上，LLM推理依赖GPU的算术运算完成矩阵乘法等核心操作。但FPGA的强项并非算力，而是大量分布式片上存储与灵活的数据通路控制能力——这一点在传统算术范式下被白白浪费了。 FCCM 2026会议上提出的LUT-LLM，首次在FPGA上实现以内存查表（memory-based computation）替代算术运算来运行十亿参数级语言模型。核心思路：将LLM的矩阵运算结果量化到离散编码表，推理时按索引查表取结果，大幅减少乘加操作。该方案采用激活-权重联合量化，最小化量化误差。工程层面有三个关键优化：带宽感知的并行质心搜索降低解码延迟；高效二维表查找减少表访问开销；时空混合架构削减数据缓存次数，提升吞吐量。在AMD V80 FPGA上以Qwen 3 1.7B实测，算术操作减少4倍，生成速度提升1.1~3.3倍，能效达到GPU的3~6.6倍。对于追求低功耗、低延迟推理的场景，这一方向值得关注。不过，当前方案针对特定量化策略做了深度适配，迁移至其他模型家族尚需进一步泛化研究。 LLM推理的硬件竞争正从「拼算力」走向「拼架构」。查表取代计算，或许只是开始。