Show HN: Steerling-8B, a language model that can explain any token it generates
a day ago
- #Interpretability
- #AI
- #LanguageModels
- Steerling-8B是首个具备本质可解释性的大语言模型,能追踪每个生成token到其输入上下文、人类可理解概念及训练数据的溯源路径
- 该模型基于1.35万亿token训练,性能可媲美训练数据量多2-7倍的模型
- 核心能力包括推理时的概念抑制/增强、训练数据溯源,以及通过概念控制实现的推理阶段对齐
- 模型将嵌入向量分解为监督概念、发现概念和残差通路三部分,在保持性能的同时确保可解释性
- 尽管训练算力较低,Steerling-8B在基准测试中仍具竞争力,其中84%的token级贡献来自概念模块
- 未来版本将探索概念导向、概念发现、免微调的对齐方法,以及记忆机制/训练数据价值评估