嘉树Plus 26-04-23 18:09
微博认证:数码博主

混元Hy3 preview,开源,295B参数,21B激活,256K上下文,来了。这是腾讯混元推翻重来之后交的第一份卷子。

国产大模型这一年不缺猛人,缺的是靠谱的人。榜单一个比一个炸裂,但你拿去干活——长文到第六页丢信息,多轮对话第五轮失忆,指令遵循隔三差五抽风。朋友圈天天有人转"登顶",真实用户天天在骂"又崩了"。

刚才看到APPSO的文章讲到一个我很认同的观点——榜单衡量的是能力上限,用户感知的是能力下限。上限决定热搜,下限决定留存。每一次崩溃都在透支的不是某一家的口碑,是整个国产模型的信任。

Hy3这次让我觉得不一样的地方在于,它把"不偏科"当成了第一原则。一个Agent工作流里推理、长文、指令、代码、工具调用全得协同,任何一块短板整条链路就断。然后主动跳出公开榜单,用自建题目和产品众测量真实战斗力。在全行业刷榜的时候选择这条路,需要一点胆量。

产品端的数字比跑分更说明问题:CodeBuddy首token延迟降54%,成功率99.99%+,稳定跑过495步Agent工作流。元宝调了文风和情商。腾讯文档AIPPT成功率提升20%,耗时缩短20%。这些数字不会出现在任何排行榜上,但它们决定用户明天还会不会打开你。

把能力下限拉高一寸,比把上限推高一丈更难,也更值得。国产模型真正该抵达的地方,不是下一个"登顶"的头条,是用户打开你的时候不再下意识先试试会不会崩。

Hy3 preview作为预览版,还只是个开始。#腾讯发布Hy3preview大模型#

发布于 广东