Hasty Briefsbeta

双语

Show HN: Steerling-8B, a language model that can explain any token it generates

3 months ago

#Interpretability
#AI
#LanguageModels

Steerling-8B是首个具备本质可解释性的大语言模型，能追踪每个生成token到其输入上下文、人类可理解概念及训练数据的溯源路径
该模型基于1.35万亿token训练，性能可媲美训练数据量多2-7倍的模型
核心能力包括推理时的概念抑制/增强、训练数据溯源，以及通过概念控制实现的推理阶段对齐
模型将嵌入向量分解为监督概念、发现概念和残差通路三部分，在保持性能的同时确保可解释性
尽管训练算力较低，Steerling-8B在基准测试中仍具竞争力，其中84%的token级贡献来自概念模块
未来版本将探索概念导向、概念发现、免微调的对齐方法，以及记忆机制/训练数据价值评估