Hasty Briefsbeta

双语

Thinking Machines – Modular Manifolds

8 months ago

#neural networks
#manifold learning
#optimization

训练大型神经网络需要保持张量（权重、激活值、梯度）的健康状态以避免数值问题
归一化是维持张量健康的关键技术，通常应用于激活值（如层归一化）和梯度（如Muon优化器）
权重矩阵归一化虽不常见但效果显著，例如EDM2模型就通过该技术提升了稳定性和可预测性
对权重矩阵施加流形约束能为优化提供结构化方法，确保权重始终位于有益的流形子空间
研究提出在神经网络中使用Stiefel流形（其矩阵具有单位条件数）来约束权重矩阵
流形优化包含三个步骤：寻找最优切空间方向、更新权重、通过收缩映射回归流形
模块化流形将这一理念扩展到整个网络，基于Lipschitz敏感度实现跨层学习率预算分配
未来研究方向包括：约束条件的模块化设计、数值计算优化，以及流形凸优化技术的突破