大模型商业化成关键

最近一直在忙，花了很多时间在测国内外的大语言模型。先说结论，这一轮国产模型的水平确实已经很高了，很多模型做得相当扎实。网上有人调侃，说这一轮 AI 竞争，本质上就是国内的中国人和国外的中国人在交手，这话虽然有点开玩笑，但也点出了现实：如今各家顶级实验室和大公司的核心研究力量里，华人研究员的占比确实非常高。

从纯能力上看，国产模型里有不少都已经到了相当能打的程度。我们也测了很多千问系模型，整体表现是不错的，尤其是小模型这一块，确实很强。有些模型在尺寸、速度和效果之间的平衡，已经做得非常漂亮。DeepSeek 当然有它的亮点，但我们实际用下来，幻觉率偏高，所以已经放弃了。清华系的几个模型，目前看下来也还不错。

但现在看大模型，光看能力已经远远不够了。真正决定下一阶段生死的，是商业化。

这个行业今天面对的最大问题，并不是模型还够不够聪明，而是模型再聪明，到底怎么挣钱。这里必须提一下阿里最近很多千问模型的关键人物离职的事，有人反应就是模型不行了，或者管理层疯了。其实未必。大模型本身就是一个极度烧钱的行业，训练成本虽然在工程优化之后已经逐渐可控，但推理成本依然非常高。模型一旦真正上线，一旦用户规模起来，成本压力就会持续存在。问题很直接：这些钱最后靠什么收回来？

这正是很多公司共同面对的难题。连美国这些商业化能力最强的公司，到今天都还在摸索稳定的收入闭环。OpenAI 还在继续找新的变现方式，广告也已经进入视野。谷歌之所以相对从容，是因为它可以把模型深度嵌进搜索、办公套件、云服务和整套既有产品体系里，用整个商业系统去承接 AI 的成本。Anthropic 这两年在企业端进展非常快，本质上也是因为企业客户愿意为效率、安全、开发和自动化持续付费。这说明一个现实：模型能力当然重要，但真正容易变现的，往往是产品化之后的能力，而不是裸模型本身。

也正因为如此，中国开源模型面临的压力其实更大。模型做得好是一回事，开源生态热闹是一回事，真正能不能形成持续收入，又是另一回事。开源模型天然容易获得口碑、开发者支持和传播效应，但这些优势离利润还有很长一段距离。尤其是在今天这个阶段，模型能力的边际效应已经开始下降了。

这是一个非常关键的变化。前几年模型每往前走一步，普通用户都能明显感觉到差别。以前不会写代码，后来能写一点；以前答非所问，后来至少能正常对话；以前经常胡说八道，后来整体上靠谱得多。那个阶段的能力提升，用户是能直接感知的，所以市场也更容易接受“更强就该更贵”。

现在情况已经变了。模型能力当然还在持续提升，但很多进步已经进入一个普通用户不容易感知的区间。更强的推理能力，更长的上下文，更复杂的思考模式，更高的工具调用成功率，更细致的指令遵循，这些在业内看来差别很大，在多数普通用户眼里却未必有那么明显。很多人根本不知道什么叫思考模式，也分不清推理增强到底强在哪里。最后他们的感受往往很简单：这个能用，那个也能用，好像差不了太多。

一旦用户分辨不出差距，模型能力本身就很难支撑溢价。你把模型从 85 分做到 90 分，研究员会觉得这一步很不容易，开发者也许能看懂价值，普通用户未必愿意为这 5 分多掏多少钱。这样一来，厂商就会陷入一个很尴尬的局面：模型还要继续投入，成本还在持续发生，市场却未必愿意为这些高级能力买单。

这对国产模型尤其不利。因为很多中国厂商目前最强的能力，恰恰集中在模型本身，而不在全球化产品入口、企业软件生态和高付费商业体系上。美国头部公司可以把模型直接塞进办公流、搜索流、开发流、云平台和企业流程里，让用户在离不开产品的同时顺手把 AI 的钱也付了。中国不少厂商还停留在“先证明模型很强，再找办法变现”的阶段。这个链条更长，难度也更高。

所以接下来判断一个大模型公司有没有前途，重点已经不能只放在模型榜单和跑分上了。真正要看的，是它能不能把能力接进产品，能不能把产品接进使用场景，能不能把场景接进收费体系，最终能不能让收入覆盖掉持续的推理成本。

这才是下一阶段行业分化的核心。模型性能当然还重要，但已经不再足以单独决定胜负。谁能把能力变成生意，谁才能真正活下来。谁只有技术光环、社区热度和榜单成绩，后面大概率会越来越吃力。

所以真正决定这个行业走向的，从来都不只是模型有多强，还有它能不能挣钱。

发布于加拿大