Hasty Briefsbeta

双语

Starting from scratch: Training a 30M Topological Transformer

4 months ago

#Machine Learning
#Tauformer
#Transformer Architecture

Tauformer是一种拓扑变换器，用拉普拉斯派生的标量（taumode）替代了点积注意力机制，每个token/head独立计算。
Tauformer通过拉普拉斯派生taumode标量的相似性对键进行排序，使注意力偏向领域相关的关系。
实现保留了Q/K/V投影、RoPE、因果掩码和softmax/值聚合，但改变了注意力对数计算方式。
Taumode标量通过有界瑞利商能量计算，产生λ∈[0,1)区间值。
KV缓存存储(V, λₖ)而非(K, V)，缓存大小减少约50%。
正在训练3000万参数的TauGPT模型，使用AdamW优化器，基础学习率5e-4，100步热身阶段。
验证损失从第100步的4.9255降至第4500步的1.9146，最终困惑度为6.59。
Taumode收敛与交叉熵损失相关，可能表明键表示更平滑。
未来工作包括自适应taumode策略和扩展到1亿参数规模。
Tauformer的确定性压缩可能增加可学习结构，符合epiplexity原理。