karminski-牙医 26-02-24 08:39
微博认证:AI博主

国产大模型摆摊全破产了?

来看我刚看到的新测试 foodtruckbench,这个测试跟我的哪个硅基骑手测试差不多是一个意思,这个变成了让大模型自己经营一个小吃摊,每天选择到哪里摆摊,菜单卖什么,要不要雇人,甚至还能升级卡车(增加出货量或者更吸引人)。这些都是通过 Agent (Tool Call)提供给大模型调用, 用于测试大模型的Agent和任务规划能力。

从结果看,Claude-Opus-4.6 是SOTA,这个倒不意外,但是比较意外的是,国产模型全都没有到盈亏线以上,全破产了。

为什么赚不到钱?我仔细浏览了一圈,发现大部分原因都是成本控制不好:
GLM5是雇佣太多人了,生产力爆表,但是进货却出现了问题,导致人员闲置疯狂支付工资。
Qwen 3.5则是库存管理出现了问题,进了一大堆货,但是放了几天没卖完结果全过期了。
DeepSeek-V3.2则是盲目扩张, 总计2000刀余额结果花了1550刀用来升级餐车...

总结来看, 好的模型在成本控制上表现都很不错, 比如 sonnet-4.6, 食物浪费只有200刀,是这些破产模型均值的一半还不到。

不过我还看到个问题——国产模型破产还有个重要原因是食物定价普遍比国外模型低....比如苏打水 GLM-5卖 $2.36,Qwen3.5卖 $2.50,sonnet-4.6 卖 $2.98。 会不会是国产模型以为是参考国内的物价水平定价的所以赚不到钱[泪奔]

榜单在这里,感兴趣的同学可以去凑热闹:foodtruckbench.com

#HOW I AI#

发布于 日本