《2025年百万亿词元AI使用研究报告|OpenRouter》,文章提出“水晶鞋”效应,认为用户留存不由模型更新速度决定,而是「初始匹配度」——当一位“灰姑娘”(大模型)首次穿上水晶鞋,也就是第一个完美解决某类高价值难题时,就会形成极强黏性,留住用户。即便后续模型更好,也很难抢走这批核心用户。
他们还发现,在OpenRouter,推理模型的使用量已超过50%;Agent开始主导,而不是简单对话。这个可能跟两个因素有关,一个是OpenRouter是大模型API供应商,用的基本是偏专业的用户;另一个是从词元消耗衡量的话,Agent优势比简单对话大太多了。
不管怎么说,对话框确实只是大模型时代命令行,迟早有替代交互。
💰哪种话题最多人聊最愿意付费?💰
可能还有人关心怎么领域最愿意用更贵的大模型(图一,注意是对数坐标,1.0差距其实是10倍差距)。首位是“技术”,可能是复杂系统设计或架构,词元消耗也不小,排现有类别第三。
报告里将“科学”跟“技术”归为第一象限(右上角),但个人觉得“科学”跟“编程”差距不大。
编程、角色扮演是挺成熟的市场了。角色扮演是为数不多非专业级标签,是在对话框这种落后交互下“野蛮生长”出来的付费玩法。不敢想象它以后的真正潜力。(不过要是去掉某种阑夕喜欢的内容,估计就被砍剩一成了)
右下角是当成行业专家来咨询。用户愿意为更高准确率支付溢价,而频率比编程低一个数量级,符合现实情况。
左下角市场显得一般,包括翻译、法律、冷知识问答(trivia,不重要但有趣、有价值的零碎知识,原文未具体解释)。可能都是因为有别的替代。翻译好像比较惨,使用量不低但价格敏感。就连问冷知识的都比翻译的贵。
或许在提醒我们,没事别干翻译[doge]
✌️双重二分结构✌️
1️⃣功能。闭源模型主导复杂任务;开源主导高频、成本敏感或无需审查的任务
2️⃣价格。“中间模型”比上不足,比下「无」余。用户愿意为高质量回答多付钱,也喜欢用低廉价格的模型,“中间”的就尴尬了
🇨🇳 🀄️中国开源模型在世界开源模型大放异彩 🀄️🇨🇳
上面只是一些亮点介绍,更多内容、具体分析逻辑与方法,请看原文:openrouter.ai/state-of-ai
🛑可能的问题🛑
1️⃣样本偏差。报告原文也承认了,OpenRouter的主要用户群体是开发者、中小企业和AI发烧友。因此,编程跟角色扮演的权重很可能过于多了,可能高估角色扮演的占比,低估了大型企业办公文档之类主流场景;
2️⃣地理位置或分类误判。由于隐私保护问题,没有对用户数据直接做处理,分类器样本也相对极小。另外个人觉得科学跟学术重叠概率不小;
3️⃣缺乏对“流失用户”的追踪,不能分析“劝退点”🔚
