Thinking Machines – LoRA Without Regret
8 months ago
- #Parameter-Efficient Fine-Tuning
- #LoRA
- #Machine Learning
- LoRA(低秩自适应)是一种参数高效的微调方法,通过添加低秩更新来修改大语言模型中的权重矩阵,从而减少可训练参数数量。
- 在多租户服务、训练布局大小和加载/传输便捷性方面,LoRA因其更小的内存占用和更快的设置速度,相比全参数微调(FullFT)具有优势。
- 在中小型数据集的有监督微调中,LoRA表现与FullFT相当,但当数据集规模超出LoRA容量时会表现不佳。
- 相比FullFT,LoRA对大批次大小的容忍度较低,性能差距随批次增大而加剧,且与秩无关。
- 将LoRA应用于所有层(尤其是MLP/MoE层)比仅用于注意力层效果更好,即使可训练参数数量相同。
- 在强化学习中,LoRA即使使用极低秩(如秩=1)也能匹配FullFT性能,因RL每回合信息有限所需容量更低。
- LoRA的最佳学习率始终比FullFT高约10倍,其计算效率略优(约为FullFT浮点运算量的2/3)。
- LoRA关键超参数包括秩、学习率和初始化尺度,其不变性特性可缩减实际需调参空间。
- 当应用于所有层且不受容量限制时,LoRA性能与FullFT相当,适合大多数训练后场景。
- LoRA的性能预测优化、动态机制理论解释,以及PiSSA等变体的评估仍是待解问题。