1-qwen-image-2512的图看了,还是有点油腻不清爽,其实豆包新的图生视频好点,但是还是好多帧发油(景物稍微好点,人物和动物都油),加工的痕迹太明显(为了扩泛化吃了太多的垃圾),所谓的一眼AI,[二哈]这个是datasets的问题
2-当然也有llm无法理解世界光影的运行逻辑有关,毕竟什么编码器也是编码像素块的patch===>tokens,就算是pooling携带了全局语义,也没什么物理光影的表达,所以生成的也就是某个历史时刻见过的图片的局部光影表现(看起来像那么回事,但是怎么看怎么不对味)#合成数据#
发布于 北京
