DeepSeek 开始搞多模态了。#ai#
开源了一个多模态理解和生成一体的模型 Janus,既可以理解图片内容又可以生成图片。
Janus的核心创新是将视觉编码分为两个独立的部分:一个用于多模态理解,一个用于图像生成。
这种解耦设计可以缓解理解和生成任务对视觉编码器的不同需求所带来的冲突,从而在两种任务上都实现更好的性能。
它采用统一的自回归变换器架构来处理不同模态的输入。
模型下载:huggingface.co/deepseek-ai/Janus-1.3B
发布于 北京
