阿里三连发AI模型未开源

阿里三天三连发，全模态、精准控图、编程智能体都SOTA了，但全没开源

刚过完愚人节，阿里直接来了波“三天王炸”。

连着三天，Qwen3.5-Omni、Wan2.7-Image、Qwen3.6-Plus 三个重磅模型一口气甩出来。全模态、图像精准编辑、智能体编程，每个维度都拿出了SOTA（业界最优）成绩。

先说第一个，Qwen3.5-Omni。
这个最让我意外——原生全模态，文本、图片、音频、视频一把抓，能听能看能聊。但真正让人“哇”的是，他们发现了一个自然涌现的能力：视听氛围编码（Audio-Visual Vibe Coding）。简单说，你把画面逻辑展示给系统，用语音提要求，它直接给你生成Python代码或前端原型。这不是刻意训练的，是自己长出来的。

内部架构是“思考者+表达者”分工。思考者负责理解，能处理10小时音频或1小时视频，快速抓重点；表达者负责输出，你说“声音大一点”或“语气开心点”，当场就调，而且漏字、数字念不清的问题也改善了。支持113种语言，上下文256K。

成绩单：215项SOTA，音频理解全面超越Gemini-3.1 Pro。

第二个，Wan2.7-Image。
主要解决一个痛点：告别AI标准脸。你可以定制专属面孔，多图参考模式下最多输入9张参考图，保证角色一致性。一次最多生成12张风格统一的分镜图。

细节控狂喜：颜色精准控制，指哪改哪的局部编辑，还能生成长达4000个字符的画面，排版字迹稳定（他们自己演示了《道德经》前40章生成字画）。还支持全透明通道智能图层分离，方便后期处理。

第三个，Qwen3.6-Plus。
这是给程序员准备的。编码智能体性能上了新台阶，前端生成、代码修复、终端自动化，国内同尺寸模型里首个全面领先。端到端成功率明显提升，代码生成和工具调用更可靠。默认100万上下文窗口，多模态感知更强。

但是——重点来了。

全都没开源。

文章最后提了一句：阿里表示将开源更小规模模型版本。

怎么说呢，模型确实强，三天三连发，每个都能打。但不开源这件事，在开源社区里注定会被反复拿出来说。你展示能力，大家服气；你不给用，大家手痒。

好在还有“更小版本”的承诺，希望能尽快看到。

这波操作你怎么看？是技术展示为主，还是商业策略先行？ http://t.cn/AXIHJXsK

发布于福建