默庵·超级个体 26-04-02 17:21
微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

智谱又放大招了。3月30号晚上,智谱发布了 GLM-5V-Turbo,名字里多了个"V",就是 Vision,意思是这回模型终于有"眼睛"了。

这个模型最厉害的地方在于,它从训练阶段就把视觉和语言放在一起学,天生就能看懂图片、视频、设计稿这些东西。跟那些在文本模型上硬接一个视觉模块、靠 OCR 翻译再猜内容的方案,完全是两条路。

数据层面,GLM-5V-Turbo 在比 Kimi K2.5 更小的模型尺寸下,多项指标反超。设计稿还原拿了 92.6 分(K2.5 是 91.3),多模态检索问答领先近 6 个百分点,Agent 任务评估更是接近 Claude Opus 4.6 的水平。更关键的是,加了视觉能力之后,纯文本编程能力没有退化,这一点很多模型做不到。

实测效果很好,我直接录了一段微信读书的操作视频,一句话扔给模型:"帮我复刻这个 App"。没有任何 UI 文档,没有标注,模型自己从视频里看出了页面结构、导航逻辑、交互层级,先输出了一份完整的技术方案,然后逐步实施,最终交付的效果几乎一模一样。换成高清截图输入,连书籍封面的细节都能还原。

视觉搜索也很能打。一张 1954 年老舍、梁思成、梅兰芳、华罗庚的合影,模型直接框出每个人并标注了名字。文档解读方面,扔一份 PDF 研报进去,出来的是一篇配了 12 张精准图表的公众号风格长文,数据引用、趋势分析都到位。

在 Artificial Analysis 榜单上,GLM-5V-Turbo 做到了 50 分级别的成绩,跟全球最强的多模态模型站在同一梯队。能稳定突破这个区间的模型屈指可数。

一句话总结:录个视频就能复刻 App,截张图就能还原界面,看懂设计稿、写得出代码、玩得转 Agent,GLM-5V-Turbo 目前做得最好。

具体详细实测,请看这篇文章:
http://t.cn/AXIWv6sg

#科技先锋官##How I AI#

发布于 山东