无影寺说 26-04-21 01:05

同一天撞车:Kimi K2.6 和 Qwen3.6-Max-Preview,一个开源 SOTA,一个闭源预览
我看完第一反应是:这俩家真的撞档了,前后差一个半小时。Kimi 丢 K2.6,Qwen 丢 3.6-Max-Preview,同一天的事。但仔细看,完全不是一回事。对比一下核心差异:
· 形态:Kimi K2.6 开源权重,HuggingFace 可下载;Qwen3.6-Max-Preview 闭源,只能 API
· 架构:Kimi 有第三方披露(vLLM),1T 总参 / 32B 激活,256K 上下文;Qwen 官方什么都没说
· 分数:Kimi 直接列 HLE w/ tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2;Qwen 只有三句定性描述
· 长程能力:Kimi 亮了 4000+ 工具调用、连续 12 小时执行、300 并行子 agent;Qwen 只说"比 Plus 强"

我个人觉得这次最狠的一点不是 Kimi 分数高,而是它是开源。有推友逐条对过,HLE w/ tools 54.0 压 Claude Opus 4.6 的 53.0、GPT-5.4 的 52.1;SWE-Bench Pro 58.6 压 GPT-5.4 的 57.7。这是第一个在这两个基准上同时超过三家闭源旗舰的开源权重。
Qwen 这边有个小插曲挺好笑。博客里的对比对象选的是 Claude Opus 4.5 而不是更新的 4.7,当场被网友吐槽"他们知道 4.5 是更好打的那个 Opus"。对一个"Preview"产品,没分数、没架构、只有三句形容词,诚意确实弱一档。

一句话总结:同一天,Kimi 把成绩单拍桌上,Qwen 把海报贴出来了。

发布于 广东