Hasty Briefsbeta

双语

Starting from scratch: Training a 30M Topological Transformer

4 months ago
  • #Machine Learning
  • #Tauformer
  • #Transformer Architecture
  • Tauformer是一种拓扑变换器,用拉普拉斯派生的标量(taumode)替代了点积注意力机制,每个token/head独立计算。
  • Tauformer通过拉普拉斯派生taumode标量的相似性对键进行排序,使注意力偏向领域相关的关系。
  • 实现保留了Q/K/V投影、RoPE、因果掩码和softmax/值聚合,但改变了注意力对数计算方式。
  • Taumode标量通过有界瑞利商能量计算,产生λ∈[0,1)区间值。
  • KV缓存存储(V, λₖ)而非(K, V),缓存大小减少约50%。
  • 正在训练3000万参数的TauGPT模型,使用AdamW优化器,基础学习率5e-4,100步热身阶段。
  • 验证损失从第100步的4.9255降至第4500步的1.9146,最终困惑度为6.59。
  • Taumode收敛与交叉熵损失相关,可能表明键表示更平滑。
  • 未来工作包括自适应taumode策略和扩展到1亿参数规模。
  • Tauformer的确定性压缩可能增加可学习结构,符合epiplexity原理。