腾讯 Hy3 preview,新团队,新Scaling
结论:整体不错的一次全性能提升 ,模型有不错的边际变化 ,可以持续观察腾讯模型的迭代。
和META 的感觉有点像,Meta 9个月时间重建预训练、后训练和test time三个scaling。腾讯25年10月招募姚顺雨,6个月重建预训练和强化学习的基础设施 ,交出了答卷。
和自己比:Hy3 preview相比于Hy2,整体性能评分提升60%左右 。在复杂推理Humanity's Last Exam提升了70%,上下文学习能力CL-bench-Life 提升85%,类OpenClaw场景ClawEval (pass^3)提高70%。其他各类指标都有不同程度提高。
和友商比:在同等参数级别下,Hy3 preview平均评分(参数295B,激活参数 21B,激活率7%)领先。和友商最好的模型比,落后于智谱GLM-5(参数744B,激活参数40B,激活率5%),和Kimi-K2.5(参数1TB,激活参数32B,激活率3%)基本持平。#tokne价格水平约为智谱的1/3,和MiniMax持平。
发布于 上海
