量子位 25-07-30 14:27
微博认证:量子位官方微博

#国产模型1.5B参数撬动吉卜力级体验##国产开源多模态统一模型#

GPT-5这两天那叫一个疯狂造势,奥特曼怕不是真有些急了[doge]。

但有一说一,回顾上半年最火AI事件,GPT-4o带来的"吉卜力"风暴,还是热度TOP。【图1】△数据来自微信指数

不仅由"万物皆可吉卜力"为始,GPT-4o生图功能被网友们疯玩至今,更重要的是,还引发了更深的技术思考:

AIGC的范式,已经被悄然改变。

从割裂地处理文本、图像、声音,到现在,大众在应用领域的反馈已经证明,AI需要以更接近人类认知的方式,融合多模态信息。

新的技术趋势值得关注,也有人第一时间开源了对新范式的深入思考:

昆仑万维已开源多模态统一模型Skywork UniPic,和GPT-4o呈现出类似的图像一体化能力,在单一模型里实现图像理解、文本到图像生成、图像编辑三大核心能力的深度融合。

对生图提示词的理解力,是这样的:【图2】

提示词:两位寿司师傅在江户时代熙攘的街市投掷彩虹寿司。他们头顶的纸灯笼明灭闪烁。整个场景呈现出像素化的复古游戏画风。

把图片转换成吉卜力风格,也很有内味儿:【图3】
并且相比狂卷大参数量的同类模型,Skywork UniPic主打一个高"性能密度":

1.5B参数模型效果就能接近甚至超越上百亿参数专用模型,可以在消费级显卡上流畅运行。

开源还很全套:完整模型权重、详细技术报告、配套全流程代码,通通开源。

想要学习借鉴增长姿势知识的小伙伴,值得马克一波。

一句话总结一下Skywork UniPic的模型特点,就是既可以像视觉模型(VLM)一样理解图像,也可以像扩散模型一样生成图片,用户还只需"动动嘴",就可以指导模型完成图像编辑。

在不同任务上,1.5B的Skywork UniPic都有不错的指令理解和生成效果。

比如文本到图像生成:

- 修女的铅笔肖像画【图4】
- 一幅身着丝绒长裙的贵妇人油画【图5】
- 图像编辑方面,换个背景:【图6】
- 调整表情:【图7】
- 换个风格:【图8】

效果上看都不逊色于一些商业闭源模型。【图9】

更定量地来看,Skywork UniPic以1.5B的紧凑参数规模,在四大核心评估维度上均展现出了卓越表现。

在GenEval指令遵循评估中,Skywork UniPic取得0.86的优异成绩,超越了绝大多数同类统一模型,在无CoT的情况下取得了SOTA分数,逼近较大模型BAGEL(7B+7B*)带CoT的0.88分。

在DPG-Bench复杂指令生图基准上,Skywork UniPic达到85.5分的行业SOTA水平,与14B参数的BAGEL(85.07分)不相上下。

在图像编辑能力方面,Skywork UniPic在GEditBench-EN获得5.83分,ImgEdit-Bench达到3.49分,展现出一定的编辑执行能力。

值得一提的是,1.5B的参数量,使得Skywork UniPic可以在RTX 4090这样的消费级显卡上流畅运行,提供了一套真正可落地的统一模型解决方案。

下面来揭秘,这背后的技术系节:http://t.cn/A6FxQmHU