Hasty Briefsbeta

双语

Thinking Machines – LoRA Without Regret

8 months ago
  • #Parameter-Efficient Fine-Tuning
  • #LoRA
  • #Machine Learning
  • LoRA(低秩自适应)是一种参数高效的微调方法,通过添加低秩更新来修改大语言模型中的权重矩阵,从而减少可训练参数数量。
  • 在多租户服务、训练布局大小和加载/传输便捷性方面,LoRA因其更小的内存占用和更快的设置速度,相比全参数微调(FullFT)具有优势。
  • 在中小型数据集的有监督微调中,LoRA表现与FullFT相当,但当数据集规模超出LoRA容量时会表现不佳。
  • 相比FullFT,LoRA对大批次大小的容忍度较低,性能差距随批次增大而加剧,且与秩无关。
  • 将LoRA应用于所有层(尤其是MLP/MoE层)比仅用于注意力层效果更好,即使可训练参数数量相同。
  • 在强化学习中,LoRA即使使用极低秩(如秩=1)也能匹配FullFT性能,因RL每回合信息有限所需容量更低。
  • LoRA的最佳学习率始终比FullFT高约10倍,其计算效率略优(约为FullFT浮点运算量的2/3)。
  • LoRA关键超参数包括秩、学习率和初始化尺度,其不变性特性可缩减实际需调参空间。
  • 当应用于所有层且不受容量限制时,LoRA性能与FullFT相当,适合大多数训练后场景。
  • LoRA的性能预测优化、动态机制理论解释,以及PiSSA等变体的评估仍是待解问题。