论文arxiv cs.LG · 3w ago重要

FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning

分类释义:学术论文 / 技术报告

TL;DR

FuRA 通过块张量火车分解 (W=LSR) 将预训练权重冻结在 SVD 基上,仅优化核心 R 和奇异值 S,实现全秩谱预条件化,在 LLaMA-3-8B commonsense reasoning 上提升 +1.37,且 QFuRA 在 4-bit 量化下超越 QLoRA。

关键要点

  • 01FuRA 通过块张量火车分解 (W=LSR) 将预训练权重冻结在 SVD 基上
  • 02仅优化核心 R 和奇异值 S
  • 03实现全秩谱预条件化
  • 04在 LLaMA-3-8B commonsense reasoning 上提升 +1.37
为什么值得关注

当前 LoRA/QLoRA 是工业微调的事实标准,但 FuRA 用谱预条件化解决了一个根本问题:有限微调数据带来的噪声梯度会扰动鲁棒的预训练特征,且在参数量相同时超越 Full FT,值得作为 LoRA 替代方案测试。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中
角色你应该做什么
Tech Lead评估团队现有微调方案是否切换到 FuRA,优先在 small-scale 实验中验证效果
应用工程师在常识推理任务上测试 FuRA,对比当前 LoRA/QLoRA 方案的精度和资源开销
运维 / 平台暂无直接影响,了解即可
产品 / 业务暂无直接影响,了解即可
阅读原文 ↗来源:arxiv cs.LG

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5