大语言模型在边缘设备上的高效部署长期受制于巨大的显存和算力需求。传统模型压缩方法依赖粗粒度剪枝或量化,往往牺牲精度或需要重新训练。PartInfer提出了神经元级优化框架,通过离线分析识别任务特定神经元和通用神经元,实现两大核心优化:部分加载(Partial Loading)仅加载最重要神经元子集,大幅降低显存占用;部分计算(Partial Computation)在运行时动态计算最相关神经元。实验表明,PartInfer在多个NLP任务上实现显著的显存和算力削减,同时保持任务性能,为边缘设备上的LLM部署提供了可行路径。 该研究来自OpenReview,专注于解决LLM在资源受限边缘设备上的高效推理问题。相比现有方法,PartInfer的创新在于神经元级细粒度优化,能够识别并复用任务相关的激活模式,在不损失精度的前提下实现深度压缩。随着端侧AI需求的增长,这类技术有望成为移动端和嵌入式设备上部署大模型的关键使能技术。