GLM-Image 要发布了?
分析了一下提交到 transformers 的部分代码, 就目前的代码而言,
GLM-Image 看起来不是直接输出像素的文生图模型,而更像是:视觉编码器 + 文本/控制解码器 + VQ codebook 离散化,最终输出一串"图像 token"用于下游 DiT (Diffusion Transformer) 等场景.
内置的 VQ 模块只暴露了 encode()(产出离散 indices),并没有看到把 tokens 解码回像素的 decode();而且文档也明确把它定位成 “给 DiT 用的 token”。因此对普通用户:它更像一个组件/中间件,需要配套的 DiT(或其他解码器)才能“看到图”, 所以不确定是还没弄完, 还是的确是类似中间件的模型. 让我们拭目以待.
#ai生活指南# #ai创造营#
发布于 日本
