量子位
25-06-07 20:26 微博认证:量子位官方微博

#一句话搞定图像视频全流程##媲美GPT4o的图像神器来了#

生成图像、剪视频、改照片,还要来回切模型?太麻烦了!

现在,港科大等团队发布了ComfyMind,一套系统打通所有主流视觉生成任务,不管是文本转图像,还是图像转视频,全都一句话搞定。

来看几个效果:

- 生成一张彩虹光学图;【图1】

- 在蛋糕图上“动刀”切块;【图2】

- 把Logo无缝嵌入杯子;【图3】

- 生成燃烧的篝火视频……【图4】

这套框架在多个行业基准测试中,表现甚至可与闭源巨头GPT-4o相媲美。

以前靠ComfyUI做这些事要搭节点、写JSON,搞懂模型参数,非专业选手根本玩不转。即使有些工具能自动搭建流程,也常常出错、缺模块、语义漂移。

ComfyMind的做法是:用大模型“指挥调度”ComfyUI,像人类艺术家那样分步骤、按层级规划任务。它把工作流程拆成“原子工作流”,用自然语言定义模块,还能根据执行反馈局部返工,不重跑整个流程。

目前,项目已开源上线,Demo也能直接体验。感兴趣的,可以戳官网或论文了解更多细节。详情请看:http://t.cn/A6exTb3M