字节开源了一个新型多模态生成模型 Liquid #ai创造营# 核心创新在于将图像和文本统一编码到同一个离散的 token 空间中并使用一个单一的大语言模型（LLM）同时处理视觉理解和生成任务核心发现是：虽然在小模型中多模态训练会影响语言能力，但随着模型规模的增大，这种性能下降会逐渐消失，甚至互

字节开源了一个新型多模态生成模型 Liquid #ai创造营#

核心创新在于将图像和文本统一编码到同一个离散的 token 空间中

并使用一个单一的大语言模型（LLM）同时处理视觉理解和生成任务

核心发现是：虽然在小模型中多模态训练会影响语言能力，但随着模型规模的增大，这种性能下降会逐渐消失，甚至互相促进。

模型下载：huggingface.co/Junfeng5/Liquid_V1_7B

发布于北京