karminski-牙医 26-01-27 08:18
微博认证:AI博主

Qwen这个TTS思路跟Google论文异曲同工?

Qwen3-Max-Thinking 正式版放出啦! 相比 2025 年 11 月发布的预览版数据提升了不少, 这次是真的重开了吗?

这次最大的更新是用了测试时扩展技术 (TTS, 不是文本到声音模型的意思哈), 这个是本次跑分飙升的秘密武器. 不是简单地多跑几遍取最优, 而是搞了个"经验累积式多轮迭代"策略 - 每轮推理后提炼关键洞见, 避免重复推导已知结论, 专注攻克未解决的难点.

相同 token 消耗下, 比普通的并行采样方法效果好得多. 感觉跟前几天那个同一个问题问大模型三遍的论文 (Prompt Repetition Improves Non-Reasoning LLMs) 是不是一个思路?

只不过 Google 那篇论文是针对"非推理模型"的简单重复 prompt, 几乎零成本就能提升效果; 而 Qwen3 的 TTS 是针对"推理模型"的智能迭代, 每轮都总结经验、聚焦难点, 类似于做完一遍题回头检查时专门盯着不确定的地方, 而不是从头再做一遍. 一个是"多问几遍", 一个是"边做边反思", 思路相似但层次不同, 而且内嵌到了模型架构里. 更精细和智能了!

跑分上: GPQA Diamond (博士级科学问题) 达到 92.8 分, 与 GPT-5.2 (92.4) 和 Gemini-3 Pro (91.9) 持平多一丢丢

IMO-AnswerBench (IMO 级别数学问题) 拿下 91.5 分, 作为对比 GPT-5.2 (86.3)、Claude-Opus-4.5 (84.0), Gemini-3 Pro (83.3) 这个领先不少.

LiveCodeBench 编程竞赛 91.4 分, 也是全场最高. 人类最后的考试 HLE 达到了 58.3 分, 比第二名 Gemini-3 Pro (45.8) 高出一大截, 当然这个是模型+搜索Agent达到的, 默认情况是少了1分, 也很高.

那么是骡子是马, 俺马上为大家带来实测!

#HOW I AI#

发布于 日本