1-qwen-image-2512的图看了，还是有点油腻不清爽，其实豆包新的图生视频好点，但是还是好多帧发油（景物稍微好点，人物和动物都油），加工的痕迹太明显（为了扩泛化吃了太多的垃圾），所谓的一眼AI,[二哈]这个是datasets的问题2-当然也有llm无法理解世界光影的运行逻辑有关，毕竟什么编码器也是编码像

1-qwen-image-2512的图看了，还是有点油腻不清爽，其实豆包新的图生视频好点，但是还是好多帧发油（景物稍微好点，人物和动物都油），加工的痕迹太明显（为了扩泛化吃了太多的垃圾），所谓的一眼AI,[二哈]这个是datasets的问题
2-当然也有llm无法理解世界光影的运行逻辑有关，毕竟什么编码器也是编码像素块的patch===＞tokens，就算是pooling携带了全局语义，也没什么物理光影的表达，所以生成的也就是某个历史时刻见过的图片的局部光影表现（看起来像那么回事，但是怎么看怎么不对味）#合成数据#

发布于北京