是煦煦哟 26-04-03 13:30
微博认证:科技博主 超话小主持人(科技超话)

阿里三天三连发,全模态、精准控图、编程智能体都SOTA了,但全没开源

刚过完愚人节,阿里直接来了波“三天王炸”。

连着三天,Qwen3.5-Omni、Wan2.7-Image、Qwen3.6-Plus 三个重磅模型一口气甩出来。全模态、图像精准编辑、智能体编程,每个维度都拿出了SOTA(业界最优)成绩。

先说第一个,Qwen3.5-Omni。
这个最让我意外——原生全模态,文本、图片、音频、视频一把抓,能听能看能聊。但真正让人“哇”的是,他们发现了一个自然涌现的能力:视听氛围编码(Audio-Visual Vibe Coding)。简单说,你把画面逻辑展示给系统,用语音提要求,它直接给你生成Python代码或前端原型。这不是刻意训练的,是自己长出来的。

内部架构是“思考者+表达者”分工。思考者负责理解,能处理10小时音频或1小时视频,快速抓重点;表达者负责输出,你说“声音大一点”或“语气开心点”,当场就调,而且漏字、数字念不清的问题也改善了。支持113种语言,上下文256K。

成绩单:215项SOTA,音频理解全面超越Gemini-3.1 Pro。

第二个,Wan2.7-Image。
主要解决一个痛点:告别AI标准脸。你可以定制专属面孔,多图参考模式下最多输入9张参考图,保证角色一致性。一次最多生成12张风格统一的分镜图。

细节控狂喜:颜色精准控制,指哪改哪的局部编辑,还能生成长达4000个字符的画面,排版字迹稳定(他们自己演示了《道德经》前40章生成字画)。还支持全透明通道智能图层分离,方便后期处理。

第三个,Qwen3.6-Plus。
这是给程序员准备的。编码智能体性能上了新台阶,前端生成、代码修复、终端自动化,国内同尺寸模型里首个全面领先。端到端成功率明显提升,代码生成和工具调用更可靠。默认100万上下文窗口,多模态感知更强。

但是——重点来了。

全都没开源。

文章最后提了一句:阿里表示将开源更小规模模型版本。

怎么说呢,模型确实强,三天三连发,每个都能打。但不开源这件事,在开源社区里注定会被反复拿出来说。你展示能力,大家服气;你不给用,大家手痒。

好在还有“更小版本”的承诺,希望能尽快看到。

这波操作你怎么看?是技术展示为主,还是商业策略先行? http://t.cn/AXIHJXsK

发布于 福建