智谱发布GLM-5V-Turbo模型

智谱又放大招了。3月30号晚上，智谱发布了 GLM-5V-Turbo，名字里多了个"V"，就是 Vision，意思是这回模型终于有"眼睛"了。

这个模型最厉害的地方在于，它从训练阶段就把视觉和语言放在一起学，天生就能看懂图片、视频、设计稿这些东西。跟那些在文本模型上硬接一个视觉模块、靠 OCR 翻译再猜内容的方案，完全是两条路。

数据层面，GLM-5V-Turbo 在比 Kimi K2.5 更小的模型尺寸下，多项指标反超。设计稿还原拿了 92.6 分（K2.5 是 91.3），多模态检索问答领先近 6 个百分点，Agent 任务评估更是接近 Claude Opus 4.6 的水平。更关键的是，加了视觉能力之后，纯文本编程能力没有退化，这一点很多模型做不到。

实测效果很好，我直接录了一段微信读书的操作视频，一句话扔给模型："帮我复刻这个 App"。没有任何 UI 文档，没有标注，模型自己从视频里看出了页面结构、导航逻辑、交互层级，先输出了一份完整的技术方案，然后逐步实施，最终交付的效果几乎一模一样。换成高清截图输入，连书籍封面的细节都能还原。

视觉搜索也很能打。一张 1954 年老舍、梁思成、梅兰芳、华罗庚的合影，模型直接框出每个人并标注了名字。文档解读方面，扔一份 PDF 研报进去，出来的是一篇配了 12 张精准图表的公众号风格长文，数据引用、趋势分析都到位。

在 Artificial Analysis 榜单上，GLM-5V-Turbo 做到了 50 分级别的成绩，跟全球最强的多模态模型站在同一梯队。能稳定突破这个区间的模型屈指可数。

一句话总结：录个视频就能复刻 App，截张图就能还原界面，看懂设计稿、写得出代码、玩得转 Agent，GLM-5V-Turbo 目前做得最好。

具体详细实测，请看这篇文章：
http://t.cn/AXIWv6sg

#科技先锋官##How I AI#

发布于山东