Hasty Briefsbeta

双语

GitHub - ggml-org/llama.cpp: LLM inference in C/C++

5 days ago

#LLM
#Inference
#C++

Llama.cpp 允许在 C/C++ 中高效进行大型语言模型推理，具备最小化设置和跨多样化硬件的高性能。
主要特性包括支持多种硬件后端（CUDA、Metal、SYCL）、多级量化以及 CPU+GPU 混合推理。
模型需采用 GGUF 格式，其生态系统包含广泛的转换、量化工具，并通过 llama-server 等 HTTP 服务器提供部署支持。
该项目支持广泛模型，为多种编程语言提供丰富绑定，并拥有不断增长的界面与工具生态系统。
鼓励基础设施集成与社区贡献，并提供安装、使用与开发的详细指南。