GLM-Image发布_新浪新闻

GLM-Image 发布啦!

智谱的GLM-Image 发布啦, 给大家带来模型解析:

从目前放出的blog信息+代码来看, 采用混合架构：使用自回归模块 + 扩散解码器

自回归生成器部分：9B 参数，基于GLM-4-9B-0414初始化，词表扩展以包含视觉 token。模型先生成约 256 个 token 的紧凑编码（低分辨率草稿），然后扩展到 1K–4K token，对应 1K–2K 高分辨率图像输出
扩散解码器部分：7B 参数，基于 CogView4 的单流 DiT 架构，用于潜空间图像解码。配备Glyph Encoder文本模块，能显著提升图像内文本渲染准确度

目前来看各个测试中都表现不错,

CVTG-2K (这是个测模型生成文本的) 文字准确率 0.9116，是开源模型中最高
DPG-Bench (这是个测试生成多对象和空间关系的) 得分 84.78, 比FLUX.1[DEV]高

稍后为大家带来模型实测~

模型地址: huggingface.co/zai-org/GLM-Image

#ai生活指南##ai创造营#

发布于日本