Hasty Briefsbeta

双语

Show HN: Shimmy – 5MB privacy-first, local alternative to Ollama (680MB)

8 months ago

#Local Inference
#AI
#OpenAI API

Shimmy 是一个免费、轻量级（5.1MB）的本地推理服务器，兼容 OpenAI API。
它具备快速启动（<100毫秒）、低内存占用（<50MB）和自动端口管理功能。
Shimmy 支持零配置加载 GGUF 模型，并能自动发现 Hugging Face 缓存或本地目录中的模型。
注重隐私：所有代码在本地运行，没有按 token 计费机制。
可轻松集成 VSCode、Cursor 和 Continue.dev 等开发工具。
提供一流的 LoRA 适配器支持，实现从训练到生产的快速切换。
支持通过 cargo install、npm 安装，即将推出 Python 和 Docker 版本。
永久采用 MIT 许可证，承诺永不转为付费产品。
为希望支持开发的用户提供赞助渠道。
采用 Rust + Tokio 实现内存安全的异步性能，后端基于 llama.cpp 进行 GGUF 模型推理。