央央是小可爱 26-04-22 10:42
微博认证:投资内容创作者

美国时间4月21日,OpenAI发布图像生成模型Images 2.0,推理能力大幅提升,包括即时和思考版,思考版可提供网络搜索,具有亮点的生成效果包括: 
1)多语言文本渲染的精准化,例:中文排版的高考数学试卷 
2)专业级 UI 与软件原型生成,例:电脑桌面应用截图 
3)角色与实体的时空一致性,例:多面板漫画人物一致性强 
4)多达14种原生纵横比,例:3:1的横幅 
 
技术创新: 
Images 2.0 的底层核心摒弃了过去单一的潜空间扩散模型,转而采用了一种更为复杂的混合架构,是 OpenAI 首次将其“O 系列”推理架构深度耦合进图像生成管线的产品,意味着图像生成正在与语言模型深度融合。 
 
OpenAI vs Google: 
Images 2.0:思维路径优先,具有类似于Agent 的思考过程,文字渲染识别度更高 
Nano Banana Pro:物理感知推理,思考过程更侧重于模拟真实世界的物理属性,文字渲染仍存在一定乱码的概率 
 
总结来讲,本次Images 2.0在推理集成、空间逻辑一致性、文字渲染上均有明显提升,其3 秒的生成效率预示着推理成本的进一步下行,也是对谷歌Nano Banana Pro的一次动态超越,有望将加速设计、媒体及软件工程等垂直领域的自动化渗透率。

发布于 广东