Hasty Briefsbeta

双语

Thinking Machines – LoRA Without Regret

8 months ago

#Parameter-Efficient Fine-Tuning
#LoRA
#Machine Learning

LoRA（低秩自适应）是一种参数高效的微调方法，通过添加低秩更新来修改大语言模型中的权重矩阵，从而减少可训练参数数量。
在多租户服务、训练布局大小和加载/传输便捷性方面，LoRA因其更小的内存占用和更快的设置速度，相比全参数微调（FullFT）具有优势。
在中小型数据集的有监督微调中，LoRA表现与FullFT相当，但当数据集规模超出LoRA容量时会表现不佳。
相比FullFT，LoRA对大批次大小的容忍度较低，性能差距随批次增大而加剧，且与秩无关。
将LoRA应用于所有层（尤其是MLP/MoE层）比仅用于注意力层效果更好，即使可训练参数数量相同。
在强化学习中，LoRA即使使用极低秩（如秩=1）也能匹配FullFT性能，因RL每回合信息有限所需容量更低。
LoRA的最佳学习率始终比FullFT高约10倍，其计算效率略优（约为FullFT浮点运算量的2/3）。
LoRA关键超参数包括秩、学习率和初始化尺度，其不变性特性可缩减实际需调参空间。
当应用于所有层且不受容量限制时，LoRA性能与FullFT相当，适合大多数训练后场景。
LoRA的性能预测优化、动态机制理论解释，以及PiSSA等变体的评估仍是待解问题。