karminski-牙医 26-04-23 19:28
微博认证:AI博主

混元3藏了一手? 我把其他模型分数补充了下

腾讯混元3大模型(hunyuan3-preview) 刚刚发布!

不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的.

而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Bench-Verified.

但是官方下面放出的折线图里面有哈. 但是折线图又有个问题是里面没有最新的模型, 比如 GLM-5.1, Kimi-K2.6, Opus-4.7.

于是我把这些缺失的数据整合到一起, 给给大家制作了这个柱状图.

直接来看结论:

从图上看, hy3-preview 的编程能力趋近于 GLM-4.7 77.4 VS 73.8. 距离最新的 GLM-5.1, Kimi-K2.6 还有一定差距. 当然距离 opus-4.7 差距就更大了.

另外其他的 Agent 能力诸如 BrowseComp 和 WideSearch 也有一定的距离. 这俩都是 Agent 搜索能力测试, 一个测试搜索的深度, 一个测试搜索的广度.

从目前来看, 几个 Agent 能力测试 hy3-preview 追上了国产 SOTA 模型去年12月的水平. 目前仍然有4个月左右的差距.

不过考虑到是 preview 版本, 后续可能还会继续优化放出正式版. 期待一波表现.

#HOW I AI##腾讯发布Hy3preview大模型##hy3##hunyuan3##混元3##腾讯混元#

发布于 北京