Hasty Briefsbeta

双语

Not All Tokens Are Meant to Be Forgotten

a year ago

#Privacy
#Machine Learning
#Large Language Models

大语言模型（LLMs）展现出人类水平的语言理解能力，但会记忆不需要的信息，如私有或受版权保护的内容。
现有遗忘方法面临过度遗忘问题，抑制遗忘样本中的所有标记，导致模型效用丧失。
定向信息遗忘（TIF）框架通过区分不需要词（UW）与通用词（GW）来改进遗忘效果。
TIF采用带Logit偏好损失的定向偏好优化来遗忘UW，并通过保留损失维持GW。
在TOFU和MUSE基准测试中，TIF在保持模型效用的同时显著提升了遗忘有效性。