本地推理服务的新标杆，5MB体积实现100% OpenAI API兼容，启动<100ms，内存占用<50MB，免费且永远免费。• 体积小巧：单文件5.1MB，远小于680MB的竞品，极致轻量，启动速度秒开。• 完全兼容OpenAI API：无需变更调用代码，支持标准聊天接口及模型列表。• 自动端口管理与零配置：开箱即用，无需手

本地推理服务的新标杆，5MB体积实现100% OpenAI API兼容，启动<100ms，内存占用<50MB，免费且永远免费。

• 体积小巧：单文件5.1MB，远小于680MB的竞品，极致轻量，启动速度秒开。
• 完全兼容OpenAI API：无需变更调用代码，支持标准聊天接口及模型列表。
• 自动端口管理与零配置：开箱即用，无需手动调试端口或配置文件。
• 支持GGUF模型及LoRA适配器：从训练到生产无缝衔接，30秒即可部署自定义LoRA模型。
• 本地推理保障隐私和成本：代码和数据均在本地运行，无需担心API费用和数据泄露。
• 多平台支持：Linux、macOS（含Apple Silicon+Metal GPU加速）、Windows均可使用。
• 与VSCode Copilot、Cursor、Continue.dev等开发工具即插即用，提升开发效率。
• 由Rust编写，基于tokio异步框架，性能和安全兼得。
• MIT开源许可，承诺永远免费，无隐藏条款，无付费转型风险。
• 社区活跃，支持快速迭代和持续优化，欢迎赞助支持持续发展。

一次安装，终身免费，Shimmy让本地AI推理真正轻盈高效。

详情🔗 github.com/Michael-A-Kuykendall/shimmy
#本地AI# #推理服务器# #Rust# #开源工具# #LoRA# #OpenAI兼容#

发布于北京