皇家山的维特根斯坦 26-03-27 10:33

最近一直在忙,花了很多时间在测国内外的大语言模型。先说结论,这一轮国产模型的水平确实已经很高了,很多模型做得相当扎实。网上有人调侃,说这一轮 AI 竞争,本质上就是国内的中国人和国外的中国人在交手,这话虽然有点开玩笑,但也点出了现实:如今各家顶级实验室和大公司的核心研究力量里,华人研究员的占比确实非常高。

从纯能力上看,国产模型里有不少都已经到了相当能打的程度。我们也测了很多千问系模型,整体表现是不错的,尤其是小模型这一块,确实很强。有些模型在尺寸、速度和效果之间的平衡,已经做得非常漂亮。DeepSeek 当然有它的亮点,但我们实际用下来,幻觉率偏高,所以已经放弃了。清华系的几个模型,目前看下来也还不错。

但现在看大模型,光看能力已经远远不够了。真正决定下一阶段生死的,是商业化。

这个行业今天面对的最大问题,并不是模型还够不够聪明,而是模型再聪明,到底怎么挣钱。这里必须提一下阿里最近很多千问模型的关键人物离职的事,有人反应就是模型不行了,或者管理层疯了。其实未必。大模型本身就是一个极度烧钱的行业,训练成本虽然在工程优化之后已经逐渐可控,但推理成本依然非常高。模型一旦真正上线,一旦用户规模起来,成本压力就会持续存在。问题很直接:这些钱最后靠什么收回来?

这正是很多公司共同面对的难题。连美国这些商业化能力最强的公司,到今天都还在摸索稳定的收入闭环。OpenAI 还在继续找新的变现方式,广告也已经进入视野。谷歌之所以相对从容,是因为它可以把模型深度嵌进搜索、办公套件、云服务和整套既有产品体系里,用整个商业系统去承接 AI 的成本。Anthropic 这两年在企业端进展非常快,本质上也是因为企业客户愿意为效率、安全、开发和自动化持续付费。这说明一个现实:模型能力当然重要,但真正容易变现的,往往是产品化之后的能力,而不是裸模型本身。

也正因为如此,中国开源模型面临的压力其实更大。模型做得好是一回事,开源生态热闹是一回事,真正能不能形成持续收入,又是另一回事。开源模型天然容易获得口碑、开发者支持和传播效应,但这些优势离利润还有很长一段距离。尤其是在今天这个阶段,模型能力的边际效应已经开始下降了。

这是一个非常关键的变化。前几年模型每往前走一步,普通用户都能明显感觉到差别。以前不会写代码,后来能写一点;以前答非所问,后来至少能正常对话;以前经常胡说八道,后来整体上靠谱得多。那个阶段的能力提升,用户是能直接感知的,所以市场也更容易接受“更强就该更贵”。

现在情况已经变了。模型能力当然还在持续提升,但很多进步已经进入一个普通用户不容易感知的区间。更强的推理能力,更长的上下文,更复杂的思考模式,更高的工具调用成功率,更细致的指令遵循,这些在业内看来差别很大,在多数普通用户眼里却未必有那么明显。很多人根本不知道什么叫思考模式,也分不清推理增强到底强在哪里。最后他们的感受往往很简单:这个能用,那个也能用,好像差不了太多。

一旦用户分辨不出差距,模型能力本身就很难支撑溢价。你把模型从 85 分做到 90 分,研究员会觉得这一步很不容易,开发者也许能看懂价值,普通用户未必愿意为这 5 分多掏多少钱。这样一来,厂商就会陷入一个很尴尬的局面:模型还要继续投入,成本还在持续发生,市场却未必愿意为这些高级能力买单。

这对国产模型尤其不利。因为很多中国厂商目前最强的能力,恰恰集中在模型本身,而不在全球化产品入口、企业软件生态和高付费商业体系上。美国头部公司可以把模型直接塞进办公流、搜索流、开发流、云平台和企业流程里,让用户在离不开产品的同时顺手把 AI 的钱也付了。中国不少厂商还停留在“先证明模型很强,再找办法变现”的阶段。这个链条更长,难度也更高。

所以接下来判断一个大模型公司有没有前途,重点已经不能只放在模型榜单和跑分上了。真正要看的,是它能不能把能力接进产品,能不能把产品接进使用场景,能不能把场景接进收费体系,最终能不能让收入覆盖掉持续的推理成本。

这才是下一阶段行业分化的核心。模型性能当然还重要,但已经不再足以单独决定胜负。谁能把能力变成生意,谁才能真正活下来。谁只有技术光环、社区热度和榜单成绩,后面大概率会越来越吃力。

所以真正决定这个行业走向的,从来都不只是模型有多强,还有它能不能挣钱。

发布于 加拿大