karminski-牙医 26-04-02 13:02
微博认证:AI博主

GLM-5V-Turbo 能补充 GLM-5.1模态上的不足吗?

GLM-5V-Turbo 刚刚发布啦! 给大家带来 GLM-5V-Turbo 简单实测!

之前给大家测试 GLM-5.1 的时候, 大家除了API不稳定问题以外, 抱怨最多的就是 5.1 不支持多模态输入, 而智谱更多的把多模态输入放在了V系列模型, 而支持多模态输入的旗舰模型一个很大的应用场景就是, 给到参考图直接克隆网页. 于是直接给大家带来 GLM-5V-Turbo 的网页克隆测试!

直接说结论, GLM-5V-Turbo 仍然保持了之前系列模型的文本识别准确率, 但是输出前端代码的性能的确一般, 我测试了总计4个场景, 分别是:

case1: 需要使用js计算进行背景图片绝对定位
case2: 文本透明
case3: SVG 线条分割画面
case4: 复杂DIV布局

说实话在传统页面设置上都ok, 比如该有的元素, div 等都能还原, 但是布局上能力不太行, 感觉就是没有针对这方面进行后训练, 模型对视觉理解的能力很强, 但是结合视觉能力生成代码这个能力是没泛化的. 体现不出来视觉能力的应用. 比如:

case1 他观察不到里面每个div的背景图是上下错位且拼接的, 自然也无法实现效果, 我反复提示了4次才能还原.
case2 的文本透明需要仔细观察文本里面是有电线穿过的(仔细看"ETRO"四个字母), 让文本变透明并展示背景.
case3 则是单纯的代码能力不行了, 无法实现使用svg刻画手写体文本然后分割画面
case4 则是多个复杂div布局, 这个差距也比较大了.
另外在测试中发现偶尔还有非预期输出的情况 (输出了大量的\n文本)

总结, 通过官方在被刺同时放出的 skill 来看 (没错, 官方给大家准备了龙虾和cc都能用的skill来接入多模态能力), 这次GLM-5V-Turbo 更侧重视觉理解, 然后输出到文本, 而不是将理解的内容输出到代码. 如果需要视觉理解能力的朋友可以试试这些skill + GLM-5V-Turbo

#HOW I AI##GLM5VTrubo##GLM5V##GLM##智谱#

发布于 日本