Hasty Briefsbeta

双语

Virtual Width Networks (VWN)

3 months ago
  • #Model Efficiency
  • #Machine Learning
  • #Neural Networks
  • 提出虚拟宽度网络(VWN),该框架可在不增加主干网络计算量的情况下扩展嵌入空间
  • VWN将表征宽度与主干网络宽度解耦,在保持效率的同时提升模型性能
  • 大规模实验表明:8倍宽度扩展使单token预测优化速度提升2倍以上,双token预测速度提升3倍
  • 发现虚拟宽度与损失降低呈对数线性关系,为大型模型效率优化提供了新维度