The Continual Learning Problem

7 months ago

记忆层被提出作为持续学习的解决方案，使模型能够更新参数而不会发生灾难性遗忘。
记忆层支持高容量、稀疏的参数更新，每次前向传播时仅激活一小部分参数。
实验表明，相比全参数微调和LoRA方法，记忆层显著减少了遗忘现象，在NaturalQuestions任务上仅出现11%的性能下降，而另两种方法分别下降了89%和71%。
持续学习被分解为两个子问题：泛化（从数据中学习重要信息）和整合（在更新知识时避免遗忘）。
记忆层通过对学习到的键值对池进行稀疏注意力计算，实现精准更新和高效信息存储。
稀疏记忆微调采用类似TF-IDF的排序机制选择性更新记忆槽，最大限度减少对已有知识的干扰。
记忆架构为大型模型提供潜在优势，有望实现更好的可解释性和知识组织能力。
优化器选择（如SGD与AdamW）影响持续学习效果，实验显示SGD在稀疏记忆微调中表现更优。
未来研究方向包括将记忆层扩展至更大模型、改进评估基准，以及探索记忆层与上下文学习的混合方法。

Hasty Briefsbeta