karminski-牙医 25-06-20 07:42
微博认证:AI博主

看到个非常好的移动端大模型推理框架——cactus

这个框架支持C/C++、Dart/Flutter 和 Ts/React-Native 的 API (而且接口都是相同的方便移植)。这个框架使用 GGML 当推理后端,支持任何与 Llama.cpp 兼容的 GGUF 模型。

目前来看放出的模型推理速度也很不错,iPhone 16 运行 Gemma3 1B 能达到 49 token/s, Qwen3 4B 能达到 16 token/s. (见图2)

#ai创造营# #AI生活指南#

发布于 日本