全参数高效微调新范式:FuRA如何让LoRA的承诺真正落地

大语言模型的微调,业界长期在两个极端之间摇摆:全参数微调(Full FT)效果好,但算力成本令人望而却步;LoRA等参数高效方法省资源,却总被认为差一点意思。最新发表于arXiv的工作FuRA(Full-Rank Adaptation)试图打破这个困局——用与LoRA相当的参数量,实现超越全参数微调的效果。 LoRA的思路是通过低秩近似来更新权重矩阵,减少可训练参数量。但它忽略了预训练模型早已在权重空间中建立了某种光谱结构——即奇异值分解(SVD)所揭示的主成分方向。当用有限的下游数据对模型进行微调时,粗暴的低秩更新反而会干扰那些已经学到的鲁棒特征。这就是为什么有时候LoRA的效果始终追不上Full FT。 研究者的解法叫做光谱预调节(Spectral Preconditioning)。具体做法是:将权重矩阵通过全秩奇异值分解重参数化,然后固定其中一个奇异基,让更新只发生在预训练的列空间内。这样一来,优化方向天然与预训练保持一致,不会被有限数据的噪声带偏。 基于这个思路,FuRA构建了一个分块张量分解架构 W = LSR:大核L冻结为预训练块级SVD基,仅优化紧凑核R和块级奇异值S。这个设计同时满足了三个目标:全秩光谱预调节、全秩更新表达力、以及与LoRA相当的参数量和内存效率。 论文在多个场景下验证了FuRA的有效性:在LLaMA-3-8B常识推理任务上,相比Full FT提升1.37分;在LLM强化学习数学推理任务和VLM视觉指令微调任务中,FuRA同样稳定超越Full FT。更值得关注的是量化版本QFuRA——4-bit量化下依然超越QLoRA。这意味着在中低端硬件上也能用上这个方法。 参数高效微调(PEFT)领域过去几年创新不断,LoRA、QLoRA、AdaLoRA等轮番登场,但大多在省资源的维度内卷。FuRA的意义在于它重新思考了为什么省资源会牺牲效果这个根本问题——答案指向了预训练模型的光谱结构。一旦理解了这个本质,参数量与效率的权衡就不再是简单的二选一,而是可以找到平衡点。 当然,FuRA目前还是论文阶段,code刚开源不久,社区复现和实际部署的效果有待验证。但它提出的光谱感知微调方向,有望成为下一代PEFT方法的标配思路。