腾讯Hy3 preview性能提升

腾讯 Hy3 preview，新团队，新Scaling
结论：整体不错的一次全性能提升，模型有不错的边际变化 ,可以持续观察腾讯模型的迭代。
和META 的感觉有点像，Meta 9个月时间重建预训练、后训练和test time三个scaling。腾讯25年10月招募姚顺雨，6个月重建预训练和强化学习的基础设施，交出了答卷。
和自己比：Hy3 preview相比于Hy2，整体性能评分提升60%左右。在复杂推理Humanity's Last Exam提升了70%，上下文学习能力CL-bench-Life 提升85%，类OpenClaw场景ClawEval (pass^3)提高70%。其他各类指标都有不同程度提高。
和友商比：在同等参数级别下，Hy3 preview平均评分（参数295B，激活参数 21B，激活率7%）领先。和友商最好的模型比，落后于智谱GLM-5（参数744B，激活参数40B，激活率5%），和Kimi-K2.5（参数1TB，激活参数32B，激活率3%）基本持平。#tokne价格水平约为智谱的1/3，和MiniMax持平。

发布于上海