Thinking Machines – Modular Manifolds
8 months ago
- #neural networks
- #manifold learning
- #optimization
- 训练大型神经网络需要保持张量(权重、激活值、梯度)的健康状态以避免数值问题
- 归一化是维持张量健康的关键技术,通常应用于激活值(如层归一化)和梯度(如Muon优化器)
- 权重矩阵归一化虽不常见但效果显著,例如EDM2模型就通过该技术提升了稳定性和可预测性
- 对权重矩阵施加流形约束能为优化提供结构化方法,确保权重始终位于有益的流形子空间
- 研究提出在神经网络中使用Stiefel流形(其矩阵具有单位条件数)来约束权重矩阵
- 流形优化包含三个步骤:寻找最优切空间方向、更新权重、通过收缩映射回归流形
- 模块化流形将这一理念扩展到整个网络,基于Lipschitz敏感度实现跨层学习率预算分配
- 未来研究方向包括:约束条件的模块化设计、数值计算优化,以及流形凸优化技术的突破