【#姚顺雨带队混元大模型首发#】#姚顺雨拒绝大模型刷榜#
刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。
姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。
从去年年底姚顺雨加入腾讯,入职首席 AI 科学家,并负责 AI Infra 及大语言模型,1 月底开始启动模型训练,三个月的时间完成了从训练到上线。
Hy3 preview 的意义,可能恰恰在于腾讯终于不追求打榜了。这也是姚顺雨带给混元最大的变化。
此前晚点一篇报道就转述了姚顺雨在腾讯内部会上的判断:模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。
模型很会答题,到了真实场景却不稳定。榜单衡量的是能力上限,用户感知的是能力下限。MMLU 上领先两个百分点,用户在实际使用中几乎感知不到;反过来,指令遵循稍差、格式不稳定、幻觉率偏高,用户体验会断崖式下降。
所以在 Hy3 preview 上, 就能看到混元开始把这个逻辑翻了过来:不追榜单,追场景。(来源:APPSO)
