GLM-5V-Turbo实测分析

GLM-5V-Turbo 能补充 GLM-5.1模态上的不足吗?

GLM-5V-Turbo 刚刚发布啦! 给大家带来 GLM-5V-Turbo 简单实测!

之前给大家测试 GLM-5.1 的时候, 大家除了API不稳定问题以外, 抱怨最多的就是 5.1 不支持多模态输入, 而智谱更多的把多模态输入放在了V系列模型, 而支持多模态输入的旗舰模型一个很大的应用场景就是, 给到参考图直接克隆网页. 于是直接给大家带来 GLM-5V-Turbo 的网页克隆测试!

直接说结论, GLM-5V-Turbo 仍然保持了之前系列模型的文本识别准确率, 但是输出前端代码的性能的确一般, 我测试了总计4个场景, 分别是:

case1: 需要使用js计算进行背景图片绝对定位
case2: 文本透明
case3: SVG 线条分割画面
case4: 复杂DIV布局

说实话在传统页面设置上都ok, 比如该有的元素, div 等都能还原, 但是布局上能力不太行, 感觉就是没有针对这方面进行后训练, 模型对视觉理解的能力很强, 但是结合视觉能力生成代码这个能力是没泛化的. 体现不出来视觉能力的应用. 比如：

case1 他观察不到里面每个div的背景图是上下错位且拼接的, 自然也无法实现效果, 我反复提示了4次才能还原.
case2 的文本透明需要仔细观察文本里面是有电线穿过的(仔细看"ETRO"四个字母), 让文本变透明并展示背景.
case3 则是单纯的代码能力不行了, 无法实现使用svg刻画手写体文本然后分割画面
case4 则是多个复杂div布局, 这个差距也比较大了.
另外在测试中发现偶尔还有非预期输出的情况 (输出了大量的\n文本)

总结, 通过官方在被刺同时放出的 skill 来看 (没错, 官方给大家准备了龙虾和cc都能用的skill来接入多模态能力), 这次GLM-5V-Turbo 更侧重视觉理解, 然后输出到文本, 而不是将理解的内容输出到代码. 如果需要视觉理解能力的朋友可以试试这些skill + GLM-5V-Turbo

#HOW I AI##GLM5VTrubo##GLM5V##GLM##智谱#

发布于日本