论文arxiv cs.LG · 3w ago重要
FuRA: Full-Rank Parameter-Efficient Fine-Tuning with Spectral Preconditioning
分类释义:学术论文 / 技术报告
TL;DR
FuRA 通过块张量火车分解 (W=LSR) 将预训练权重冻结在 SVD 基上,仅优化核心 R 和奇异值 S,实现全秩谱预条件化,在 LLaMA-3-8B commonsense reasoning 上提升 +1.37,且 QFuRA 在 4-bit 量化下超越 QLoRA。
关键要点
- 01FuRA 通过块张量火车分解 (W=LSR) 将预训练权重冻结在 SVD 基上。
- 02仅优化核心 R 和奇异值 S。
- 03实现全秩谱预条件化。
- 04在 LLaMA-3-8B commonsense reasoning 上提升 +1.37。
为什么值得关注
当前 LoRA/QLoRA 是工业微调的事实标准,但 FuRA 用谱预条件化解决了一个根本问题:有限微调数据带来的噪声梯度会扰动鲁棒的预训练特征,且在参数量相同时超越 Full FT,值得作为 LoRA 替代方案测试。
对你的工程实践意味着什么
LLM 实时生成MiniMax-M2.7缓存命中
| 角色 | 你应该做什么 |
|---|---|
| Tech Lead | 评估团队现有微调方案是否切换到 FuRA,优先在 small-scale 实验中验证效果 |
| 应用工程师 | 在常识推理任务上测试 FuRA,对比当前 LoRA/QLoRA 方案的精度和资源开销 |
| 运维 / 平台 | 暂无直接影响,了解即可 |
| 产品 / 业务 | 暂无直接影响,了解即可 |
同类资讯
本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5