#国产模型1.5B参数撬动吉卜力级体验##国产开源多模态统一模型#GPT-5这两天那叫一个疯狂造势，奥特曼怕不是真有些急了[doge]。但有一说一，回顾上半年最火AI事件，GPT-4o带来的"吉卜力"风暴，还是热度TOP。【图1】△数据来自微信指数不仅由"万物皆可吉卜力"为始，GPT-4o生图功能被网友们疯玩至今

#国产模型1.5B参数撬动吉卜力级体验##国产开源多模态统一模型#

GPT-5这两天那叫一个疯狂造势，奥特曼怕不是真有些急了[doge]。

但有一说一，回顾上半年最火AI事件，GPT-4o带来的"吉卜力"风暴，还是热度TOP。【图1】△数据来自微信指数

不仅由"万物皆可吉卜力"为始，GPT-4o生图功能被网友们疯玩至今，更重要的是，还引发了更深的技术思考：

AIGC的范式，已经被悄然改变。

从割裂地处理文本、图像、声音，到现在，大众在应用领域的反馈已经证明，AI需要以更接近人类认知的方式，融合多模态信息。

新的技术趋势值得关注，也有人第一时间开源了对新范式的深入思考：

昆仑万维已开源多模态统一模型Skywork UniPic，和GPT-4o呈现出类似的图像一体化能力，在单一模型里实现图像理解、文本到图像生成、图像编辑三大核心能力的深度融合。

对生图提示词的理解力，是这样的：【图2】

提示词：两位寿司师傅在江户时代熙攘的街市投掷彩虹寿司。他们头顶的纸灯笼明灭闪烁。整个场景呈现出像素化的复古游戏画风。

把图片转换成吉卜力风格，也很有内味儿：【图3】
并且相比狂卷大参数量的同类模型，Skywork UniPic主打一个高"性能密度"：

1.5B参数模型效果就能接近甚至超越上百亿参数专用模型，可以在消费级显卡上流畅运行。

开源还很全套：完整模型权重、详细技术报告、配套全流程代码，通通开源。

想要学习借鉴增长姿势知识的小伙伴，值得马克一波。

一句话总结一下Skywork UniPic的模型特点，就是既可以像视觉模型（VLM）一样理解图像，也可以像扩散模型一样生成图片，用户还只需"动动嘴"，就可以指导模型完成图像编辑。

在不同任务上，1.5B的Skywork UniPic都有不错的指令理解和生成效果。

比如文本到图像生成：

- 修女的铅笔肖像画【图4】
- 一幅身着丝绒长裙的贵妇人油画【图5】
- 图像编辑方面，换个背景：【图6】
- 调整表情：【图7】
- 换个风格：【图8】

效果上看都不逊色于一些商业闭源模型。【图9】

更定量地来看，Skywork UniPic以1.5B的紧凑参数规模，在四大核心评估维度上均展现出了卓越表现。

在GenEval指令遵循评估中，Skywork UniPic取得0.86的优异成绩，超越了绝大多数同类统一模型，在无CoT的情况下取得了SOTA分数，逼近较大模型BAGEL（7B+7B*）带CoT的0.88分。

在DPG-Bench复杂指令生图基准上，Skywork UniPic达到85.5分的行业SOTA水平，与14B参数的BAGEL（85.07分）不相上下。

在图像编辑能力方面，Skywork UniPic在GEditBench-EN获得5.83分，ImgEdit-Bench达到3.49分，展现出一定的编辑执行能力。

值得一提的是，1.5B的参数量，使得Skywork UniPic可以在RTX 4090这样的消费级显卡上流畅运行，提供了一套真正可落地的统一模型解决方案。

下面来揭秘，这背后的技术系节：http://t.cn/A6FxQmHU