karminski-牙医 26-01-16 08:50
微博认证:AI博主

GLM-Image 发布啦!

智谱的GLM-Image 发布啦, 给大家带来模型解析:

从目前放出的blog信息+代码来看, 采用混合架构:使用自回归模块 + 扩散解码器

自回归生成器部分:9B 参数,基于GLM-4-9B-0414初始化,词表扩展以包含视觉 token。模型先生成约 256 个 token 的紧凑编码(低分辨率草稿),然后扩展到 1K–4K token,对应 1K–2K 高分辨率图像输出
扩散解码器部分:7B 参数,基于 CogView4 的单流 DiT 架构,用于潜空间图像解码。配备Glyph Encoder文本模块,能显著提升图像内文本渲染准确度

目前来看各个测试中都表现不错,

CVTG-2K (这是个测模型生成文本的) 文字准确率 0.9116,是开源模型中最高
DPG-Bench (这是个测试生成多对象和空间关系的) 得分 84.78, 比FLUX.1[DEV]高

稍后为大家带来模型实测~

模型地址: huggingface.co/zai-org/GLM-Image

#ai生活指南##ai创造营#

发布于 日本