国产大模型测试全破产

国产大模型摆摊全破产了?

来看我刚看到的新测试 foodtruckbench，这个测试跟我的哪个硅基骑手测试差不多是一个意思，这个变成了让大模型自己经营一个小吃摊，每天选择到哪里摆摊，菜单卖什么，要不要雇人，甚至还能升级卡车（增加出货量或者更吸引人）。这些都是通过 Agent (Tool Call)提供给大模型调用，用于测试大模型的Agent和任务规划能力。

从结果看，Claude-Opus-4.6 是SOTA，这个倒不意外，但是比较意外的是，国产模型全都没有到盈亏线以上，全破产了。

为什么赚不到钱？我仔细浏览了一圈，发现大部分原因都是成本控制不好：
GLM5是雇佣太多人了，生产力爆表，但是进货却出现了问题，导致人员闲置疯狂支付工资。
Qwen 3.5则是库存管理出现了问题，进了一大堆货，但是放了几天没卖完结果全过期了。
DeepSeek-V3.2则是盲目扩张, 总计2000刀余额结果花了1550刀用来升级餐车...

总结来看, 好的模型在成本控制上表现都很不错, 比如 sonnet-4.6, 食物浪费只有200刀，是这些破产模型均值的一半还不到。

不过我还看到个问题——国产模型破产还有个重要原因是食物定价普遍比国外模型低....比如苏打水 GLM-5卖 $2.36，Qwen3.5卖 $2.50，sonnet-4.6 卖 $2.98。会不会是国产模型以为是参考国内的物价水平定价的所以赚不到钱[泪奔]

榜单在这里，感兴趣的同学可以去凑热闹：foodtruckbench.com

#HOW I AI#

发布于日本