测完腾讯混元新模型,发现很多人没看懂它的思路。
昨晚在群里聊到腾讯新发的 Hy3 preview,有群友说还是没追上御三家。
我听了都有点哭笑不得。官方推文里写的很清楚,三个多月前,混元团队从底层开始推倒重建整个模型。
也才三个月时间,怎么可能那么快就做出来 SOTA 模型。不符合基本的规律。
姚顺雨还在 OpenAI 当研究员时,曾经写过一篇广为流传的播客,标题是《The Second Half》,看来很多人已经不记得了。其中最重要的观点是:
过去几十年,大家都在琢磨怎么把模型训得更聪明。Transformer、GPT 这些技术,本质上都是在训练方法上做突破。评测只是个辅助,用来证明你的模型确实更强。
现在情况变了。大规模预训练加上推理能力,再配上 RL,这套训练范式已经跑通了。AI 大模型就此进入下半场。
下半场真正最重要的事情是重新定义评测,定义 AI 到底要解决哪些真实的问题。
文章链接我放这里了。现在重读此文,仍然觉得很有道理。
上半场大家都以造一个越来越聪明的大脑为核心目标。而下半场,游戏规则变成了拿这个大脑解决什么问题。
所以,我们能够看到,OpenAI、Anthropic 这些公司,恍然之间,都已经开始做自己的一方产品了,而且做的很不错。Claude Code 的用户已经超过了 Cursor。
对于腾讯而言也是如此。应用和模型是一体两面。
我没有专门测 Hy3 preview,但这几天已经在 WorkBuddy 里把它当默认模型在用,不吹不黑,挺好用的。
Hy3 preview 总参数 295B,激活 21B,是个中型模型,主打性价比。
拿它直接对标几个 T 参数的大块头本来也不合理。但放在 WorkBuddy 的场景里,模型和应用互相咬合,跑出来的效果,比单看模型分数要扎实得多了。
这就是姚顺雨说的下半场。模型本身已经不是唯一的变量了,给它配什么样的脚手架,同样关键。这和最近大火的 Harness 是一个逻辑。
所以,今天我想拿一个真实的案例来和大家看看 WorkBuddy + Hy3 preview 的能力到底如何。我边写文章边做案例,也不粉饰,尽可能还原真实的 Case。
WorkBuddy 我深度在用。并且我已经把之前 OpenClaw 的 Skill 迁移到了 WorkBuddy 上。这个产品在我的角度有几个优势:
第一,它有本地和云端两个模式。在电脑前,我就用本地模式。在外面我会直接打开小程序用云端模式。它可以 100% 替代龙虾。
第二,它打通了和腾讯云的生态,我们可以直接在 WorkBuddy 中把代码部署到腾讯云的 CloudBase 上,这对于小团队来说非常方便。
第三,Harness 做的不错。很多人以为 Agent 的进步来自模型,其实更大的进步,来自 Harness。我用下来,感觉 WorkBuddy 这块挺稳健的。http://t.cn/AXJZ2YQ4
