Qwen3.6-Max-Preview 来了!
看官方文档,这次是重点提升了Agent编程表现,在SkillsBench、Terminal-Bench 2.0等六项主流编程基准测试中全面超越Qwen3.6-Plus。另外在世界知识、指令遵循这两项关键能力上,也有不小的提升。
不过这次新模型里,最让我关注的是“preserve_thinking”(思维保存,或者思维继承)的强化。
最近大家都在搞 Agent 框架,比如小龙虾、Codex、Hermes等等,相信大家在跑长流程任务时,或多或少都遇到过模型跑飞了、健忘、陷入死循环等情况。
那这个 preserve_thinking 功能,就是可以在长任务、多轮对话中,完整保留所有前序轮次的模型思维内容(Reasoning Trace),让模型在后续轮次的推理中,可直接继承、复用前序的推理逻辑、中间结论、任务规划与错误预判,这就让模型可以在最大程度上继承上下文,防止前言不搭后语的情况出现。
单这么看,你可能会担心:如果每次都加载上之前所有的思维推理过程,会不会让上下文膨胀地特别快?推理速度变慢不说,Token 消耗的速度也更快?
其实这里有一个关键在于:推理逻辑可以复用。
简单来说,就是之前已经进行过的思考,在后续的对话中会直接复用思维链和结论,模型不用重复造轮子,也不会重新再思考一遍。不像传统的多轮任务中,模型会重新理解任务背景、重复推导前序已经确认的中间结论。
因此根据官方实验中的测试数据,开启思维保存后,整体 token 消耗反而降低了2成左右,平均单轮推理延迟也降低 15%,甚至用的越久,省的越多。
还有一个重要作用,那就是提高了“可解释性”。
其实任何大模型都是“黑箱系统”,人们只知道问模型问题,模型就会给出问题,但为什么能实现,不知道。
这就导致,当 Agent 任务执行失败时,开发者也无法定位到底是哪一个环节、哪一步推理出现了错误,只能反复调整 prompt 试错。
而思维保存功能,则让开发者可以查看任务全生命周期中,每一轮对话的完整思维内容,包括模型的任务拆解逻辑、工具调用规划、错误预判、路径选择原因等所有中间过程。
这就相当于,你以前招了个外包,他会直接塞给你一个满是 bug 的代码包。而现在,他还会把写代码时的草稿本、踩坑记录一并交给你。这对于开发者来说,排错效率完全不是一个维度的。
这种可追溯性,也让 Agent 的执行过程满足金融、政务、法律等强监管场景的合规要求,为大模型在严肃场景的落地扫清了可解释性障碍。
从这些角度来看,“思维保存”这种机制、架构上的创新,或许要远比某些具体能力的提升要重要。[并不简单]
#how i ai##千问##大模型#
