Self-Adapting Language Models
a year ago
- #Machine Learning
- #Natural Language Processing
- #Artificial Intelligence
- 介绍了自适应性大语言模型框架SEAL,该框架通过让大模型自主生成微调数据和更新指令来实现自我调适
- SEAL使模型能够产生自我编辑指令,这些指令可重组信息、指定优化超参数,或调用工具进行数据增强和基于梯度的更新
- 采用监督微调(SFT)实现持久化的权重更新,使模型获得长期适应能力
- 通过强化学习循环训练模型,将更新模型的下游性能作为奖励信号
- 与现有方法不同,SEAL直接利用模型自身生成的内容来控制其适应过程
- 实验表明SEAL在知识整合和少样本泛化方面效果显著,标志着语言模型向自主适应方向迈出重要一步