Show HN: Shimmy – 5MB privacy-first, local alternative to Ollama (680MB)
8 months ago
- #Local Inference
- #AI
- #OpenAI API
- Shimmy 是一个免费、轻量级(5.1MB)的本地推理服务器,兼容 OpenAI API。
- 它具备快速启动(<100毫秒)、低内存占用(<50MB)和自动端口管理功能。
- Shimmy 支持零配置加载 GGUF 模型,并能自动发现 Hugging Face 缓存或本地目录中的模型。
- 注重隐私:所有代码在本地运行,没有按 token 计费机制。
- 可轻松集成 VSCode、Cursor 和 Continue.dev 等开发工具。
- 提供一流的 LoRA 适配器支持,实现从训练到生产的快速切换。
- 支持通过 cargo install、npm 安装,即将推出 Python 和 Docker 版本。
- 永久采用 MIT 许可证,承诺永不转为付费产品。
- 为希望支持开发的用户提供赞助渠道。
- 采用 Rust + Tokio 实现内存安全的异步性能,后端基于 llama.cpp 进行 GGUF 模型推理。