http://t.cn/AXSlRSCF当 #AI##智能体#开始不断调用大模型时，真正需要优化的，或许已经不是 Prompt，而是成本。云端推理意味着每一个 #Token# 都需要持续付费；而边缘推理，则让 Token 的边际成本逐渐趋近于零。“推理应该运行在哪里”，正在成为 AI 应用架构最重要的决策之一。本文将以 Windows

http://t.cn/AXSlRSCF
当 #AI##智能体#开始不断调用大模型时，真正需要优化的，或许已经不是 Prompt，而是成本。

云端推理意味着每一个 #Token# 都需要持续付费；而边缘推理，则让 Token 的边际成本逐渐趋近于零。“推理应该运行在哪里”，正在成为 AI 应用架构最重要的决策之一。

本文将以 Windows ML CLI + Qwen3-0.6B 开源项目为例，带你实战在 Windows NPU 上部署本地大模型，对比 CPU 与 NPU 推理性能，并构建支持逐 Token 流式输出的桌面聊天应用，一起探索 AI 推理从云端走向边缘的全新范式。

发布于山东