Hasty Briefsbeta

双语

Microsoft’s “1‑bit” AI model runs on a CPU only, while matching larger systems

a year ago
  • #AI
  • #Quantization
  • #Neural Networks
  • 现代AI模型通常使用16位或32位浮点数存储权重,这需要大量内存和计算资源。
  • 微软通用人工智能小组开发了一种新型三元神经网络模型,仅使用-1、0或1作为权重值。
  • 这种三元架构降低了复杂度并提高了计算效率,使其能在桌面CPU上高效运行。
  • 尽管权重精度降低,该模型宣称性能可与同规模全精度模型相媲美。
  • 先前的量化技术主要聚焦于降低内存占用,极端案例如BitNet使用单比特权重。
  • 新型BitNet b1.58b模型采用三元系统(称为'1.58比特'),是首个开源、原生训练的规模化1比特大语言模型。
  • 与可能导致性能下降的训练后量化不同,BitNet b1.58b采用原生训练,避免了显著性能损失。
  • 该模型基于4万亿token的训练数据集,可扩展至20亿token规模,性能对标更大的全精度模型。