Hasty Briefsbeta

双语

GitHub - ggml-org/llama.cpp: LLM inference in C/C++

5 days ago
  • #LLM
  • #Inference
  • #C++
  • Llama.cpp 允许在 C/C++ 中高效进行大型语言模型推理,具备最小化设置和跨多样化硬件的高性能。
  • 主要特性包括支持多种硬件后端(CUDA、Metal、SYCL)、多级量化以及 CPU+GPU 混合推理。
  • 模型需采用 GGUF 格式,其生态系统包含广泛的转换、量化工具,并通过 llama-server 等 HTTP 服务器提供部署支持。
  • 该项目支持广泛模型,为多种编程语言提供丰富绑定,并拥有不断增长的界面与工具生态系统。
  • 鼓励基础设施集成与社区贡献,并提供安装、使用与开发的详细指南。