Starting from scratch: Training a 30M Topological Transformer
4 months ago
- #Machine Learning
- #Tauformer
- #Transformer Architecture
- Tauformer是一种拓扑变换器,用拉普拉斯派生的标量(taumode)替代了点积注意力机制,每个token/head独立计算。
- Tauformer通过拉普拉斯派生taumode标量的相似性对键进行排序,使注意力偏向领域相关的关系。
- 实现保留了Q/K/V投影、RoPE、因果掩码和softmax/值聚合,但改变了注意力对数计算方式。
- Taumode标量通过有界瑞利商能量计算,产生λ∈[0,1)区间值。
- KV缓存存储(V, λₖ)而非(K, V),缓存大小减少约50%。
- 正在训练3000万参数的TauGPT模型,使用AdamW优化器,基础学习率5e-4,100步热身阶段。
- 验证损失从第100步的4.9255降至第4500步的1.9146,最终困惑度为6.59。
- Taumode收敛与交叉熵损失相关,可能表明键表示更平滑。
- 未来工作包括自适应taumode策略和扩展到1亿参数规模。
- Tauformer的确定性压缩可能增加可学习结构,符合epiplexity原理。