Not All Tokens Are Meant to Be Forgotten
a year ago
- #Privacy
- #Machine Learning
- #Large Language Models
- 大语言模型(LLMs)展现出人类水平的语言理解能力,但会记忆不需要的信息,如私有或受版权保护的内容。
- 现有遗忘方法面临过度遗忘问题,抑制遗忘样本中的所有标记,导致模型效用丧失。
- 定向信息遗忘(TIF)框架通过区分不需要词(UW)与通用词(GW)来改进遗忘效果。
- TIF采用带Logit偏好损失的定向偏好优化来遗忘UW,并通过保留损失维持GW。
- 在TOFU和MUSE基准测试中,TIF在保持模型效用的同时显著提升了遗忘有效性。