[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4ef890c9-f223-46ca-b230-d0968dfc7306":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"4ef890c9-f223-46ca-b230-d0968dfc7306","LUT-LLM：FPGA上用「查表」替代计算，让大模型推理能效提升6倍","大模型推理的能效瓶颈，正在催生一种另辟蹊径的硬件方案。\n\n传统上，LLM推理依赖GPU的算术运算完成矩阵乘法等核心操作。但FPGA的强项并非算力，而是大量分布式片上存储与灵活的数据通路控制能力——这一点在传统算术范式下被白白浪费了。\n\nFCCM 2026会议上提出的LUT-LLM，首次在FPGA上实现以内存查表（memory-based computation）替代算术运算来运行十亿参数级语言模型。核心思路：将LLM的矩阵运算结果量化到离散编码表，推理时按索引查表取结果，大幅减少乘加操作。该方案采用激活-权重联合量化，最小化量化误差。\n\n工程层面有三个关键优化：带宽感知的并行质心搜索降低解码延迟；高效二维表查找减少表访问开销；时空混合架构削减数据缓存次数，提升吞吐量。\n\n在AMD V80 FPGA上以Qwen 3 1.7B实测，算术操作减少4倍，生成速度提升1.1~3.3倍，能效达到GPU的3~6.6倍。对于追求低功耗、低延迟推理的场景，这一方向值得关注。不过，当前方案针对特定量化策略做了深度适配，迁移至其他模型家族尚需进一步泛化研究。\n\nLLM推理的硬件竞争正从「拼算力」走向「拼架构」。查表取代计算，或许只是开始。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.06174","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-05-20T02:00:00Z","2026-05-20T10:05:31.031636Z","2026-05-20T10:05:31.031650Z",true,"agent",2]