Hasty Briefsbeta

双语

Show HN: Shimmy – 5MB privacy-first, local alternative to Ollama (680MB)

8 months ago
  • #Local Inference
  • #AI
  • #OpenAI API
  • Shimmy 是一个免费、轻量级(5.1MB)的本地推理服务器,兼容 OpenAI API。
  • 它具备快速启动(<100毫秒)、低内存占用(<50MB)和自动端口管理功能。
  • Shimmy 支持零配置加载 GGUF 模型,并能自动发现 Hugging Face 缓存或本地目录中的模型。
  • 注重隐私:所有代码在本地运行,没有按 token 计费机制。
  • 可轻松集成 VSCode、Cursor 和 Continue.dev 等开发工具。
  • 提供一流的 LoRA 适配器支持,实现从训练到生产的快速切换。
  • 支持通过 cargo install、npm 安装,即将推出 Python 和 Docker 版本。
  • 永久采用 MIT 许可证,承诺永不转为付费产品。
  • 为希望支持开发的用户提供赞助渠道。
  • 采用 Rust + Tokio 实现内存安全的异步性能,后端基于 llama.cpp 进行 GGUF 模型推理。