有位中国开发者,坐跨大西洋航班,靠窗,掏出一台 MacBook Pro M4,64 GB 内存。机上全程 WiFi 要 25 美元,他没买。
没网怎么办?人家根本不慌。直接在本地跑了个 Llama 3.3 70B,bf16 精度,用 llama.cpp 推理。生成速度 71 token/秒,上下文大概 60,000 token,内存吃了 48.6 GiB,几乎打满。起飞时电池显示续航 3 小时 21 分钟,他就靠着这点电开局。
起飞前,他给本机写了一套编排脚本,还设了个系统提示,大概意思是:
“你现在是一台 MacBook 上的离线编排器,没网。唯一能用的是本地文件和 localhost:8080 的 Llama 推理服务。电池就三个多小时。从 /Users/dev/work/queue.jsonl 里逐行取客户任务,每个任务先起草,再本地评估,产物丢到 /Users/dev/work/done/。每处理 12 个任务,存一次上下文检查点,方便换电源之后恢复。队列跑空或者电量掉到 5% 以下才停。”
说白了,这脚本很清楚自己的家底:没网、内存有限、电也有限,而且人在天上,落地前没人会插手。它老老实实一个循环跑到黑:取任务、推理、保存产物、写检查点。
飞行中,电量真不够了。编排器自动检测到低于 5%,暂停,等他插上移动电源,再从最后一个检查点把上下文恢复,继续干活。整个过程他基本不用管。
日志里记得清清楚楚:
“saved context checkpoint 8 of 12 (pos_min = 488, pos_max = 50118, size = 62.813 MiB)”
“restored context checkpoint (pos_min = 488, pos_max = 50118)”
“prompt processing progress: n_tokens = 50 / 60 818”
“task 37016 done | tps = 71 s tokens text → /Users/dev/work/done/proposal_westside.md”
窗外云和蓝天,托盘上就一台 MacBook,开着终端,localhost 推理服务安静地跑。没花一分钱上网,11 个小时飞完,客户队列在落地前全部处理干净。
怎么说呢,这大概是我近一年见过最干净的离线 AI 工作流了。 http://t.cn/AXJ5iTUq
发布于 日本
