OpenAI发布Images 2.0

美国时间4月21日，OpenAI发布图像生成模型Images 2.0，推理能力大幅提升，包括即时和思考版，思考版可提供网络搜索，具有亮点的生成效果包括：　
1）多语言文本渲染的精准化，例：中文排版的高考数学试卷　
2）专业级 UI 与软件原型生成，例：电脑桌面应用截图　
3）角色与实体的时空一致性，例：多面板漫画人物一致性强　
4）多达14种原生纵横比，例：3:1的横幅　
　
技术创新：　
Images 2.0 的底层核心摒弃了过去单一的潜空间扩散模型，转而采用了一种更为复杂的混合架构，是 OpenAI 首次将其“O 系列”推理架构深度耦合进图像生成管线的产品，意味着图像生成正在与语言模型深度融合。　
　
OpenAI vs Google：　
Images 2.0：思维路径优先，具有类似于Agent 的思考过程，文字渲染识别度更高　
Nano Banana Pro：物理感知推理，思考过程更侧重于模拟真实世界的物理属性，文字渲染仍存在一定乱码的概率　
　
总结来讲，本次Images 2.0在推理集成、空间逻辑一致性、文字渲染上均有明显提升，其3 秒的生成效率预示着推理成本的进一步下行，也是对谷歌Nano Banana Pro的一次动态超越，有望将加速设计、媒体及软件工程等垂直领域的自动化渗透率。

发布于广东