Hasty Briefsbeta

双语

GitHub - microsoft/BitNet: Official inference framework for 1-bit LLMs

25 days ago
  • #inference optimization
  • #BitNet
  • #1-bit LLMs
  • bitnet.cpp 是针对BitNet b1.58等1比特大语言模型的优化推理框架,支持在CPU和GPU上实现快速无损推理
  • 在ARM和x86架构CPU上实现1.37倍至6.17倍加速,能耗降低最高达82.2%
  • 支持在单颗CPU上以人类可读速度(每秒5-7个token)运行1000亿参数的BitNet b1.58模型
  • 最新优化包含并行内核实现和嵌入量化技术,可带来1.15倍至2.1倍的额外加速
  • 提供Apple M2芯片上运行BitNet b1.58 3B模型的演示案例
  • 支持多种模型架构,包括BitNet-b1.58-2B-4T、bitnet_b1_58-large及Falcon3系列模型
  • 系统要求Python>=3.9、cmake>=3.22及clang>=18编译环境
  • 为Windows和Debian/Ubuntu用户提供详细的安装与使用指南
  • 包含推理基准测试脚本,以及为不支持的布局生成虚拟模型的工具
  • 文档记录常见问题解决方案,如clang安装验证和Visual Studio工具链初始化等