Virtual Width Networks (VWN)
3 months ago
- #Model Efficiency
- #Machine Learning
- #Neural Networks
- 提出虚拟宽度网络(VWN),该框架可在不增加主干网络计算量的情况下扩展嵌入空间
- VWN将表征宽度与主干网络宽度解耦,在保持效率的同时提升模型性能
- 大规模实验表明:8倍宽度扩展使单token预测优化速度提升2倍以上,双token预测速度提升3倍
- 发现虚拟宽度与损失降低呈对数线性关系,为大型模型效率优化提供了新维度