荔枝李Lychee 26-04-19 13:34

ChatGPT 开始灰度 GPT Image 2(暂定名),新一代 SOTA 图片生成模型,感觉可以和 Nano Banana 2 一战。

目前测试下来主要的增强点有几个,文字能力大幅增强,现在生成的文字不会歪七扭八了,UI 能力大幅增强,能够有效理解 UI 界面概念并且生成对应图片,现实世界场景大幅增强,能够理解焦外、环境描述。

相较于 GPT Image 1.5,它更适合使用自然语言 prompt 而非结构化 prompt,行为类似 Nano Banan 2 系列模型。

我在上面跑了 4 个测试,
第一个是混合场景测试,同时测试 UI、文本和现实世界理解能力,即使在背景焦外的文本也依然没有变形。
第二个是真实世界渲染,任务细节和焦外还原显著强于上一代模型。
第三个是设计和海报类测试,指定多种字体、语言混排和条形码均正确生成。
第四个是复杂 UI 测试,我描述了一个销售的看板界面让它生成,它对头像、文本和浏览器界面均理解正确,包括 macOS 窗口的特征和圆角。

总体来说是一个高度可用,可以直接接入工作流的模型。

如何确认自己获得了 GPT Image 2 的灰度?
在 ChatGPT 中选择创建图片并开启思考,让它生成一些带文本的图片,如果文本是可读的,那么你就已经在用 GPT Image 2 了,1.5 完全没法正确处理带文字的图片。

发布于 新加坡