开发者离线运行AI工作流

有位中国开发者，坐跨大西洋航班，靠窗，掏出一台 MacBook Pro M4，64 GB 内存。机上全程 WiFi 要 25 美元，他没买。

没网怎么办？人家根本不慌。直接在本地跑了个 Llama 3.3 70B，bf16 精度，用 llama.cpp 推理。生成速度 71 token/秒，上下文大概 60,000 token，内存吃了 48.6 GiB，几乎打满。起飞时电池显示续航 3 小时 21 分钟，他就靠着这点电开局。

起飞前，他给本机写了一套编排脚本，还设了个系统提示，大概意思是：
“你现在是一台 MacBook 上的离线编排器，没网。唯一能用的是本地文件和 localhost:8080 的 Llama 推理服务。电池就三个多小时。从 /Users/dev/work/queue.jsonl 里逐行取客户任务，每个任务先起草，再本地评估，产物丢到 /Users/dev/work/done/。每处理 12 个任务，存一次上下文检查点，方便换电源之后恢复。队列跑空或者电量掉到 5% 以下才停。”

说白了，这脚本很清楚自己的家底：没网、内存有限、电也有限，而且人在天上，落地前没人会插手。它老老实实一个循环跑到黑：取任务、推理、保存产物、写检查点。

飞行中，电量真不够了。编排器自动检测到低于 5%，暂停，等他插上移动电源，再从最后一个检查点把上下文恢复，继续干活。整个过程他基本不用管。

日志里记得清清楚楚：
“saved context checkpoint 8 of 12 (pos_min = 488, pos_max = 50118, size = 62.813 MiB)”
“restored context checkpoint (pos_min = 488, pos_max = 50118)”
“prompt processing progress: n_tokens = 50 / 60 818”
“task 37016 done | tps = 71 s tokens text → /Users/dev/work/done/proposal_westside.md”

窗外云和蓝天，托盘上就一台 MacBook，开着终端，localhost 推理服务安静地跑。没花一分钱上网，11 个小时飞完，客户队列在落地前全部处理干净。

怎么说呢，这大概是我近一年见过最干净的离线 AI 工作流了。 http://t.cn/AXJ5iTUq

发布于日本