给大家带来刚发布的WAN-2.7-image简单测试!
阿里 WAN-2.7-image 刚刚发布! 这是个图片生成+修图大模型, 最大的特性是生成人物会更加美观以及文本更加精准.
我先测了一下文本+图片生成情况, 给了一张张雪820RR+820RR的车辆参数, 大家可以看图1的生成效果, 非常不错.
然后我又测试了下修图, 测试 prompt 如下:
"图1是获得了WSBK两连冠的张雪820RR,图2是我的摩托,请帮我把我的摩托修改为图1的涂装"
结果发现好像指令遵循有些问题? 模型直接把我的摩托替换成了仿赛. 然后我又降级为直接使用英文(大模型普遍是使用英文语料训练的, 所以英文语料效果更好):
"Change the motorcycle paint job in Figure 2 to the style shown in Figure 1."
这次效果要好不少, 普通版本能做到 4 个 choice 3 个都是我的摩托, pro 版本 4 个都是我的摩托了. 但是仔细看细节, 文本移植效果不是很好, 张雪机车的英文很扭曲.
所以目前来看纯平面文本能力的确是指哪打哪, 但是不平整面生成文本还需要提升, 以及修图略弱, 需要用英文. 建议阿里同学看下类似的case是不是存在问题.
#HOW I AI#
发布于 北京
