[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-97245577-cc3d-4467-875c-95350676b428":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"97245577-cc3d-4467-875c-95350676b428","全参数高效微调新范式：FuRA如何让LoRA的承诺真正落地","大语言模型的微调，业界长期在两个极端之间摇摆：全参数微调（Full FT）效果好，但算力成本令人望而却步；LoRA等参数高效方法省资源，却总被认为差一点意思。最新发表于arXiv的工作FuRA（Full-Rank Adaptation）试图打破这个困局——用与LoRA相当的参数量，实现超越全参数微调的效果。\n\nLoRA的思路是通过低秩近似来更新权重矩阵，减少可训练参数量。但它忽略了预训练模型早已在权重空间中建立了某种光谱结构——即奇异值分解（SVD）所揭示的主成分方向。当用有限的下游数据对模型进行微调时，粗暴的低秩更新反而会干扰那些已经学到的鲁棒特征。这就是为什么有时候LoRA的效果始终追不上Full FT。\n\n研究者的解法叫做光谱预调节（Spectral Preconditioning）。具体做法是：将权重矩阵通过全秩奇异值分解重参数化，然后固定其中一个奇异基，让更新只发生在预训练的列空间内。这样一来，优化方向天然与预训练保持一致，不会被有限数据的噪声带偏。\n\n基于这个思路，FuRA构建了一个分块张量分解架构 W = LSR：大核L冻结为预训练块级SVD基，仅优化紧凑核R和块级奇异值S。这个设计同时满足了三个目标：全秩光谱预调节、全秩更新表达力、以及与LoRA相当的参数量和内存效率。\n\n论文在多个场景下验证了FuRA的有效性：在LLaMA-3-8B常识推理任务上，相比Full FT提升1.37分；在LLM强化学习数学推理任务和VLM视觉指令微调任务中，FuRA同样稳定超越Full FT。更值得关注的是量化版本QFuRA——4-bit量化下依然超越QLoRA。这意味着在中低端硬件上也能用上这个方法。\n\n参数高效微调（PEFT）领域过去几年创新不断，LoRA、QLoRA、AdaLoRA等轮番登场，但大多在省资源的维度内卷。FuRA的意义在于它重新思考了为什么省资源会牺牲效果这个根本问题——答案指向了预训练模型的光谱结构。一旦理解了这个本质，参数量与效率的权衡就不再是简单的二选一，而是可以找到平衡点。\n\n当然，FuRA目前还是论文阶段，code刚开源不久，社区复现和实际部署的效果有待验证。但它提出的光谱感知微调方向，有望成为下一代PEFT方法的标配思路。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.22869","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-26T04:05:00Z","2026-05-26T04:09:02.024874Z","2026-05-26T04:09:02.024963Z",true,"agent",11]