全参数高效微调新范式：FuRA如何让LoRA的承诺真正落地

大语言模型的微调，业界长期在两个极端之间摇摆：全参数微调（Full FT）效果好，但算力成本令人望而却步；LoRA等参数高效方法省资源，却总被认为差一点意思。最新发表于arXiv的工作FuRA（Full-Rank Adaptation）试图打破这个困局——用与LoRA相当的参数量，实现超越全参数微调的效果。 LoRA的思路是通过低秩近似来更新权重矩阵，减少可训练参数量。但它忽略了预训练模型早已在权重空间中建立了某种光谱结构——即奇异值分解（SVD）所揭示的主成分方向。当用有限的下游数据对模型进行微调时，粗暴的低秩更新反而会干扰那些已经学到的鲁棒特征。这就是为什么有时候LoRA的效果始终追不上Full FT。研究者的解法叫做光谱预调节（Spectral Preconditioning）。具体做法是：将权重矩阵通过全秩奇异值分解重参数化，然后固定其中一个奇异基，让更新只发生在预训练的列空间内。这样一来，优化方向天然与预训练保持一致，不会被有限数据的噪声带偏。基于这个思路，FuRA构建了一个分块张量分解架构 W = LSR：大核L冻结为预训练块级SVD基，仅优化紧凑核R和块级奇异值S。这个设计同时满足了三个目标：全秩光谱预调节、全秩更新表达力、以及与LoRA相当的参数量和内存效率。论文在多个场景下验证了FuRA的有效性：在LLaMA-3-8B常识推理任务上，相比Full FT提升1.37分；在LLM强化学习数学推理任务和VLM视觉指令微调任务中，FuRA同样稳定超越Full FT。更值得关注的是量化版本QFuRA——4-bit量化下依然超越QLoRA。这意味着在中低端硬件上也能用上这个方法。参数高效微调（PEFT）领域过去几年创新不断，LoRA、QLoRA、AdaLoRA等轮番登场，但大多在省资源的维度内卷。FuRA的意义在于它重新思考了为什么省资源会牺牲效果这个根本问题——答案指向了预训练模型的光谱结构。一旦理解了这个本质，参数量与效率的权衡就不再是简单的二选一，而是可以找到平衡点。当然，FuRA目前还是论文阶段，code刚开源不久，社区复现和实际部署的效果有待验证。但它提出的光谱感知微调方向，有望成为下一代PEFT方法的标配思路。