阿里三天三连发,全模态、精准控图、编程智能体都SOTA了,但全没开源
刚过完愚人节,阿里直接来了波“三天王炸”。
连着三天,Qwen3.5-Omni、Wan2.7-Image、Qwen3.6-Plus 三个重磅模型一口气甩出来。全模态、图像精准编辑、智能体编程,每个维度都拿出了SOTA(业界最优)成绩。
先说第一个,Qwen3.5-Omni。
这个最让我意外——原生全模态,文本、图片、音频、视频一把抓,能听能看能聊。但真正让人“哇”的是,他们发现了一个自然涌现的能力:视听氛围编码(Audio-Visual Vibe Coding)。简单说,你把画面逻辑展示给系统,用语音提要求,它直接给你生成Python代码或前端原型。这不是刻意训练的,是自己长出来的。
内部架构是“思考者+表达者”分工。思考者负责理解,能处理10小时音频或1小时视频,快速抓重点;表达者负责输出,你说“声音大一点”或“语气开心点”,当场就调,而且漏字、数字念不清的问题也改善了。支持113种语言,上下文256K。
成绩单:215项SOTA,音频理解全面超越Gemini-3.1 Pro。
第二个,Wan2.7-Image。
主要解决一个痛点:告别AI标准脸。你可以定制专属面孔,多图参考模式下最多输入9张参考图,保证角色一致性。一次最多生成12张风格统一的分镜图。
细节控狂喜:颜色精准控制,指哪改哪的局部编辑,还能生成长达4000个字符的画面,排版字迹稳定(他们自己演示了《道德经》前40章生成字画)。还支持全透明通道智能图层分离,方便后期处理。
第三个,Qwen3.6-Plus。
这是给程序员准备的。编码智能体性能上了新台阶,前端生成、代码修复、终端自动化,国内同尺寸模型里首个全面领先。端到端成功率明显提升,代码生成和工具调用更可靠。默认100万上下文窗口,多模态感知更强。
但是——重点来了。
全都没开源。
文章最后提了一句:阿里表示将开源更小规模模型版本。
怎么说呢,模型确实强,三天三连发,每个都能打。但不开源这件事,在开源社区里注定会被反复拿出来说。你展示能力,大家服气;你不给用,大家手痒。
好在还有“更小版本”的承诺,希望能尽快看到。
这波操作你怎么看?是技术展示为主,还是商业策略先行? http://t.cn/AXIHJXsK
发布于 福建
