Robustly identifying concepts introduced during chat fine-tuning with crosscoder
a year ago
- #machine learning
- #model diffing
- #crosscoders
- 模型差异研究探讨微调如何改变模型的表征和内部算法
- 交叉编码器是一种模型差异分析方法,可识别基础模型和微调模型中的可解释概念
- 先前研究假设模型特定潜在变量是微调过程中引入的新概念
- 交叉编码器的L1训练损失问题可能导致错误归因概念为微调模型独有
- 潜在变量缩放技术的开发旨在更精准测量各潜在变量在模型间的存在程度
- 在Gemma 2 2B基础模型与对话模型的实验中,标准交叉编码器暴露出这些问题
- 交叉编码器中采用BatchTopK损失函数可缓解问题,发现更多真正对话专属的可解释概念
- BatchTopK交叉编码器识别出'虚假信息'和'个人问题'等对话专属潜在变量
- 与拒绝相关的潜在变量显示出对不同拒绝触发条件的细微偏好
- 该研究推进了基于交叉编码器的模型差异分析最佳实践,并深化了对对话微调效果的理解