GitHub - microsoft/BitNet: Official inference framework for 1-bit LLMs
25 days ago
- #inference optimization
- #BitNet
- #1-bit LLMs
- bitnet.cpp 是针对BitNet b1.58等1比特大语言模型的优化推理框架,支持在CPU和GPU上实现快速无损推理
- 在ARM和x86架构CPU上实现1.37倍至6.17倍加速,能耗降低最高达82.2%
- 支持在单颗CPU上以人类可读速度(每秒5-7个token)运行1000亿参数的BitNet b1.58模型
- 最新优化包含并行内核实现和嵌入量化技术,可带来1.15倍至2.1倍的额外加速
- 提供Apple M2芯片上运行BitNet b1.58 3B模型的演示案例
- 支持多种模型架构,包括BitNet-b1.58-2B-4T、bitnet_b1_58-large及Falcon3系列模型
- 系统要求Python>=3.9、cmake>=3.22及clang>=18编译环境
- 为Windows和Debian/Ubuntu用户提供详细的安装与使用指南
- 包含推理基准测试脚本,以及为不支持的布局生成虚拟模型的工具
- 文档记录常见问题解决方案,如clang安装验证和Visual Studio工具链初始化等