开源图像模型需求探讨

chatgpt-image-2已经出来一段时间了。
但是几乎没有看到探讨其中原理的文章。

这个时候，你就理解了deepseek当初的意义。
在openai o1的思考模式推出的时候，业界都不知道是怎么做的。
是deepseek揭开了这个秘密，并且开源公之于众。

nano banana pro和chatgpt-image-2是不错。
但是太贵，太慢了，而且访问也不方便。

其实在图像模型这块，现在急需一款开源模型，可以打平nano banana pro和chatgpt-image-2，同时做到成本低，量大管饱。

阿里的z-image-turbo不错，速度快，审美在线，但是编辑能力没有上来。
黑森林工作室的flux2 klein编辑能力还可以，但是生图不太行。

要是能结合二者的优势，搞出一个开源模型，和nano banana pro和chatgpt-image-2打平，将会非常有市场。

这个模型不需要太大，世界知识方面，可以用大语言模型补充。

就看最后是谁搞出一个这样的开源图像模型了。
那将是图像模型里面的deepseek时刻。

发布于江苏