腾讯混元新模型分析

测完腾讯混元新模型，发现很多人没看懂它的思路。

昨晚在群里聊到腾讯新发的 Hy3 preview，有群友说还是没追上御三家。

我听了都有点哭笑不得。官方推文里写的很清楚，三个多月前，混元团队从底层开始推倒重建整个模型。

也才三个月时间，怎么可能那么快就做出来 SOTA 模型。不符合基本的规律。

姚顺雨还在 OpenAI 当研究员时，曾经写过一篇广为流传的播客，标题是《The Second Half》，看来很多人已经不记得了。其中最重要的观点是：

过去几十年，大家都在琢磨怎么把模型训得更聪明。Transformer、GPT 这些技术，本质上都是在训练方法上做突破。评测只是个辅助，用来证明你的模型确实更强。

现在情况变了。大规模预训练加上推理能力，再配上 RL，这套训练范式已经跑通了。AI 大模型就此进入下半场。

下半场真正最重要的事情是重新定义评测，定义 AI 到底要解决哪些真实的问题。

文章链接我放这里了。现在重读此文，仍然觉得很有道理。

上半场大家都以造一个越来越聪明的大脑为核心目标。而下半场，游戏规则变成了拿这个大脑解决什么问题。

所以，我们能够看到，OpenAI、Anthropic 这些公司，恍然之间，都已经开始做自己的一方产品了，而且做的很不错。Claude Code 的用户已经超过了 Cursor。

对于腾讯而言也是如此。应用和模型是一体两面。

我没有专门测 Hy3 preview，但这几天已经在 WorkBuddy 里把它当默认模型在用，不吹不黑，挺好用的。

Hy3 preview 总参数 295B，激活 21B，是个中型模型，主打性价比。

拿它直接对标几个 T 参数的大块头本来也不合理。但放在 WorkBuddy 的场景里，模型和应用互相咬合，跑出来的效果，比单看模型分数要扎实得多了。

这就是姚顺雨说的下半场。模型本身已经不是唯一的变量了，给它配什么样的脚手架，同样关键。这和最近大火的 Harness 是一个逻辑。

所以，今天我想拿一个真实的案例来和大家看看 WorkBuddy + Hy3 preview 的能力到底如何。我边写文章边做案例，也不粉饰，尽可能还原真实的 Case。

WorkBuddy 我深度在用。并且我已经把之前 OpenClaw 的 Skill 迁移到了 WorkBuddy 上。这个产品在我的角度有几个优势：

第一，它有本地和云端两个模式。在电脑前，我就用本地模式。在外面我会直接打开小程序用云端模式。它可以 100% 替代龙虾。

第二，它打通了和腾讯云的生态，我们可以直接在 WorkBuddy 中把代码部署到腾讯云的 CloudBase 上，这对于小团队来说非常方便。

第三，Harness 做的不错。很多人以为 Agent 的进步来自模型，其实更大的进步，来自 Harness。我用下来，感觉 WorkBuddy 这块挺稳健的。http://t.cn/AXJZ2YQ4

发布于北京