GLM-Image技术分析

GLM-Image 要发布了?

分析了一下提交到 transformers 的部分代码, 就目前的代码而言,

GLM-Image 看起来不是直接输出像素的文生图模型，而更像是：视觉编码器 + 文本/控制解码器 + VQ codebook 离散化，最终输出一串"图像 token"用于下游 DiT (Diffusion Transformer) 等场景.

内置的 VQ 模块只暴露了 encode()（产出离散 indices），并没有看到把 tokens 解码回像素的 decode()；而且文档也明确把它定位成 “给 DiT 用的 token”。因此对普通用户：它更像一个组件/中间件，需要配套的 DiT（或其他解码器）才能“看到图”, 所以不确定是还没弄完, 还是的确是类似中间件的模型. 让我们拭目以待.

#ai生活指南# #ai创造营#